tritonsort a balanced large scale sor4ng system
play

TritonSort: A Balanced Large-Scale Sor4ng System Alexander - PowerPoint PPT Presentation

TritonSort: A Balanced Large-Scale Sor4ng System Alexander Rasmussen, George Porter, Michael Conley, Radhika Niranjan Mysore, Amin Vahdat (UCSD), Harsha V. Madhyastha(UC


  1. TritonSort: ¡ A ¡Balanced ¡Large-­‑Scale ¡Sor4ng ¡ System Alexander ¡Rasmussen, ¡George ¡Porter, ¡Michael ¡Conley, ¡Radhika ¡Niranjan ¡ Mysore, ¡Amin ¡Vahdat ¡(UCSD), ¡Harsha ¡V. ¡Madhyastha(UC ¡Riverside), ¡ Alexander ¡Pucher ¡(Vienna ¡University ¡of ¡Technology ) ¡ Few ¡slides ¡adapted ¡from ¡NSDI’11 ¡PresentaNon ¡

  2. Mo4va4on § Data-­‑intensive ¡Scalable ¡CompuNng ¡Systems ¡(DISC) ¡like ¡MapReduce, ¡ Hadoop ¡are ¡highly ¡scalable. ¡ ¡ § But ¡do ¡not ¡uNlize ¡resources ¡near ¡their ¡maximum ¡capacity. ¡ § More ¡efficient ¡use ¡of ¡resources ¡can ¡increase ¡the ¡ ¡ ¡ ¡ ¡throughput ¡or ¡reduce ¡the ¡cost. ¡ Ø Build ¡a ¡highly ¡efficient ¡DISC ¡sorNng ¡system ¡through ¡balanced ¡design. ¡ ü Win ¡the ¡Sort ¡Benchmark ¡challenge. ¡ • Indy ¡variant ¡of ¡Gray ¡sort ¡ • Sort ¡100 ¡TB ¡of ¡data ¡with ¡Uniform ¡key ¡distribuNon. ¡Each ¡tuple ¡consists ¡of ¡10 ¡ byte ¡key, ¡90 ¡byte ¡value. ¡

  3. Key ¡Design ¡Principles Ø Balanced ¡System: ¡A ¡system ¡which ¡uNlizes ¡all ¡the ¡resources ¡to ¡near ¡ 100%. ¡ Ø Using ¡commodity ¡hardware. ¡For ¡example: ¡Hard ¡disks ¡are ¡used ¡over ¡ SSDs ¡as ¡they ¡have ¡low ¡cost/GB. ¡ Ø Minimize ¡hard ¡disk ¡seeks ¡as ¡disk ¡I/O ¡bandwidth ¡can ¡easily ¡become ¡a ¡ bo\leneck. ¡ Ø The ¡total ¡memory ¡in ¡the ¡system ¡is ¡less ¡than ¡the ¡size ¡of ¡the ¡enNre ¡ dataset ¡to ¡be ¡sorted. ¡

  4. Hardware ¡Architecture Ø Every ¡node ¡in ¡the ¡system ¡has ¡equal ¡processing ¡power, ¡memory ¡and ¡ storage ¡capacity. ¡ ¡ Ø Components ¡like ¡type ¡of ¡Hard ¡Disk, ¡Speed ¡of ¡Ethernet ¡etc. ¡are ¡ carefully ¡chosen ¡such ¡that ¡the ¡system ¡is ¡balanced. ¡ ¡ Ø Do ¡not ¡read ¡and ¡write ¡to ¡the ¡disk ¡at ¡the ¡same ¡Nme. ¡ Ø Two ¡reads, ¡two ¡writes ¡per ¡tuple. ¡ Ø The ¡hard ¡disks ¡per ¡node ¡are ¡divided ¡into ¡input/output ¡nodes ¡and ¡ intermediate ¡nodes. ¡

  5. SoCware ¡Architecture ¡– ¡In ¡Brief Ø Consists ¡of ¡two ¡phases ¡separated ¡by ¡a ¡barrier. ¡ ¡ Ø Each ¡phase ¡is ¡pipelined ¡and ¡consists ¡of ¡mulNple ¡stages. ¡ ¡ Ø Stages ¡are ¡decoupled ¡from ¡each ¡other ¡using ¡pools ¡of ¡buffers ¡in ¡ memory. ¡ Phase ¡One : ¡Tuples ¡read ¡from ¡the ¡input ¡disks ¡and ¡distributed ¡to ¡ appropriate ¡on-­‑disk ¡parNNon ¡(called ¡“logical ¡disk”) ¡on ¡desNnaNon ¡ node. ¡ Phase ¡Two : ¡Read ¡from ¡the ¡logical ¡disks, ¡sort ¡the ¡data, ¡write ¡back ¡ Ø Radix ¡sort ¡used ¡for ¡its ¡speed. ¡

  6. SoCware ¡Architecture ¡– ¡Phase ¡One

  7. A ¡counter-­‑intui4ve ¡op4miza4on Sender ¡and ¡ Receiver ¡ Workers ¡are ¡ single ¡threaded ¡

  8. SoCware ¡Architecture ¡– ¡Phase ¡two

  9. Evalua4on: ¡Is ¡TritonSort ¡Really ¡balanced?

  10. Evalua4on: ¡Indy ¡Gray ¡Sort ¡Benchmark

  11. Evalua4on: ¡Scalability

  12. Evalua4on: ¡BoOleneck ¡Experiments Ø Replacing ¡7200 ¡RPM ¡disks ¡with ¡15000 ¡RPM ¡hard ¡disks. ¡ ¡ Ø ¡Doubling ¡RAM ¡(in ¡a ¡2 ¡node, ¡2TB ¡sort) ¡

  13. Key ¡Takeaways • Achieving ¡a ¡good ¡balance ¡between ¡scalability ¡and ¡per-­‑node ¡efficiency ¡ can ¡lead ¡to ¡large ¡gains ¡in ¡performance ¡or ¡reducNon ¡in ¡cost. ¡ • Highly ¡opNmized ¡systems ¡(like ¡TritonSort) ¡can ¡lead ¡to ¡large ¡gains ¡in ¡ performance ¡when ¡compared ¡to ¡generic ¡systems ¡(like ¡MapReduce). ¡ • Every ¡system ¡is ¡limited ¡in ¡performance ¡by ¡a ¡bo\leneck. ¡Bo\leneck ¡ can ¡only ¡be ¡shided ¡from ¡one ¡component ¡to ¡another ¡but ¡never ¡ removed. ¡ ¡ ¡ ¡If ¡(TimerRing.start ¡>= ¡Nme.Now) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ J ¡ ¡ ¡ ¡else ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ L ¡

  14. Ques4ons

Recommend


More recommend