Department of Computer Science Philip ¡Soltero, ¡ Patrick ¡Bridges , ¡ Mike ¡Lang ¡ and ¡Dorian ¡Arnold ¡ Los ¡Alamos ¡Na@onal ¡ University ¡of ¡New ¡Mexico ¡ Laborotory ¡
} Need ¡large-‑scale ¡services ¡at ¡huge ¡node ¡counts ¡ ◦ Job ¡launch, ¡power ¡monitoring/control, ¡load ¡balancing, ¡etc. ¡ ◦ System-‑wide ¡communica@on ¡a ¡major ¡challenge ¡here ¡ } Have ¡to ¡worry ¡about ¡all ¡of ¡address ¡the ¡standard ¡ exascale ¡and ¡distributed ¡system ¡design ¡concerns ¡ ◦ Power, ¡Resilience ¡ ◦ Scalability, ¡Consistency ¡ } We’ve ¡tradi@onally ¡designed ¡HPC ¡system ¡services ¡like ¡ they ¡were ¡HPC ¡applica@ons: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Synchronous, ¡Structured, ¡and ¡Global ¡ ¡ Scalable Systems Lab
} Same ¡@red ¡old ¡idea: ¡Discard ¡ consistency ¡for ¡scalability ¡or ¡ resilience ¡ } For ¡what ¡services ¡does ¡this ¡make ¡ sense? ¡ ◦ Dependent ¡on ¡hardware ¡and ¡ programming ¡model ¡ ◦ Past ¡work ¡in ¡this ¡direc@on ¡has ¡for ¡load ¡ balancing, ¡other ¡services ¡ } What ¡kind ¡of ¡weakly ¡consistent ¡ communica@on ¡to ¡use? ¡ Scalable Systems Lab
} Popular ¡recent ¡distributed ¡system ¡technique ¡ ◦ Round-‑based ¡protocol ¡ ◦ Each ¡round: ¡Every ¡node ¡exchanges ¡informa@on ¡with ¡small ¡ random ¡set ¡of ¡nodes ¡ ◦ Informa@on ¡propagates ¡ epidemically ¡throughout ¡system ¡ ◦ Design ¡so ¡global ¡data ¡view ¡converges ¡to ¡correct ¡value ¡ } Robust ¡to ¡failures; ¡no ¡global ¡communica@on ¡coupling ¡ Scalable Systems Lab
Some ¡types ¡of ¡ Percentage of accuracy vs rounds for max aggregation 6 aggrega@on ¡are ¡easier ¡ than ¡others ¡ 5 ◦ Idempotent ¡opera@ons ¡ 4 (max, ¡min, ¡etc.) ¡easy ¡to ¡ do ¡ Rounds 3 ◦ Average, ¡Sum, ¡etc. ¡are ¡ more ¡difficult ¡– ¡simple ¡ 2 pairwise ¡exchanges ¡are ¡ insufficient ¡ 1 ◦ Can ¡use ¡more ¡complex ¡ protocols ¡for ¡compu@ng ¡ 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 global ¡sums ¡ Percentage of accuracy Scalable Systems Lab
} Takes ¡some ¡number ¡of ¡synchronized ¡rounds ¡for ¡results ¡ to ¡converge ¡towards ¡true ¡value ¡ } Different ¡nodes ¡have ¡different ¡values ¡at ¡different ¡@mes ¡ } When ¡to ¡use ¡the ¡current ¡value ¡or ¡start ¡a ¡new ¡round? ¡ } Few ¡well-‑understood ¡roundless ¡gossip ¡protocols ¡ ¡Can ¡we ¡actually ¡build ¡useful ¡exascale ¡services ¡with ¡this? ¡ Scalable Systems Lab
} Built ¡a ¡simple ¡UDP ¡ Peer discovery gossip ¡library ¡for ¡ Peer selection tes@ng ¡gossip ¡ Peer API algorithms ¡ UDP Send Buffer } Currently ¡uses ¡a ¡ UDP Recv Buffer fixed ¡view ¡of ¡ Gossip-based service poten@al ¡peers ¡to ¡ select ¡from ¡ Scalable Systems Lab
Round 2 Round 3 Round 4 } 1000 ¡par@cipants ¡ 60 100 200 compu@ng ¡ 80 150 40 60 averages ¡ ¡ 100 40 20 50 } How ¡close ¡is ¡each ¡ 20 Number of Services 0 0 0 node ¡to ¡the ¡real ¡ 0 50 100 0 50 100 0 50 100 average ¡a^er ¡each ¡ Round 5 Round 6 Round 7 300 500 800 round? ¡ 400 600 200 300 } Very ¡high ¡accuracy ¡ 400 200 100 in ¡about ¡6-‑7 ¡ 200 100 rounds ¡ 0 0 0 0 50 100 0 50 100 0 50 100 Percent accuracy Scalable Systems Lab
} Goal: ¡Simple ¡power ¡control ¡scheme ¡to ¡examine ¡the ¡ limita@ons ¡of ¡gossip ¡for ¡exascale ¡system ¡service ¡design ¡ } Given: ¡ ¡ 1. Cap ¡on ¡average ¡local ¡power ¡consump@on ¡(global ¡cap) ¡ 2. Mul@ple ¡available ¡power ¡gears ¡(F/V ¡pairs) ¡ 3. Local ¡power ¡measurements ¡ } Approach: ¡ ¡ 1. Use ¡gossip ¡to ¡es@mate ¡global ¡power ¡usage ¡ 2. Locally ¡change ¡gears ¡to ¡help ¡converge ¡global ¡average ¡ towards ¡desired ¡value ¡ Scalable Systems Lab
} Simulate ¡effects ¡of ¡power ¡consump@on ¡control ¡ } Process: ¡ 1. Each ¡node ¡sets ¡local ¡power ¡ 2. Simulator ¡determines ¡resul@ng ¡global ¡power ¡usage ¡ 3. Nodes ¡are ¡given ¡communicated ¡global ¡power ¡usage ¡based ¡ on ¡(scaled) ¡accuracy ¡profiles ¡ ¡ 4. And ¡on ¡around ¡the ¡loop ¡ } Assume ¡perfectly ¡balanced ¡load ¡ } 5 ¡energy ¡gears ¡(1200MHz/1.2V ¡to ¡2000MHz/2.0 ¡V) ¡ Scalable Systems Lab
Power management simulator results 7 x 10 } Graph ¡is ¡for ¡1000 ¡ 10.2 10 par@cipants ¡ 9.8 } With ¡“enough” ¡ 9.6 rounds ¡we ¡can ¡get ¡ Global power 9.4 sufficient ¡accuracy ¡ 9.2 and ¡hence ¡control ¡ 9 8.8 } “Enough” ¡is ¡24 ¡ 8.6 rounds ¡at ¡exascale ¡ Power cap 12 − round 8.4 10 − round 5 − round 8.2 0 10 20 30 40 50 60 70 80 90 100 Iteration Scalable Systems Lab
} Upsides ¡ ◦ Can ¡s@ll ¡get ¡reasonable ¡control ¡(in ¡this ¡one ¡case) ¡even ¡when ¡ we’ve ¡discarded ¡any ¡guarantee ¡of ¡complete ¡consistency ¡ ◦ Gossip ¡is ¡robust ¡to ¡failure ¡(5% ¡failure ¡with ¡a ¡simple ¡failure ¡ model ¡didn’t ¡impact ¡gossiped ¡value ¡or ¡accuracy) ¡ } Downsides ¡ ◦ 20-‑24 ¡rounds ¡(with ¡one ¡peer ¡per ¡round) ¡is ¡non-‑trivial, ¡ corresponds ¡to ¡10-‑12 ¡level ¡binary ¡reduc@on ¡tree ¡(e.g. ¡TBON) ¡ ◦ Behavior ¡can ¡be ¡poor ¡if ¡accuracy ¡is ¡insufficient ¡ ◦ Need ¡some ¡fallback ¡to ¡enforce ¡hard ¡limits ¡ Scalable Systems Lab
} Related ¡Work ¡ ◦ Structured ¡Communica@on ¡Networks ¡(TBON, ¡CIFTS, ¡etc.) ¡ ◦ Asynchronous/non-‑blocking ¡collec@ves ¡ ◦ A ¡whole ¡ra^ ¡of ¡tradi@onal ¡distributed ¡systems ¡studies ¡ } Future ¡Work ¡ ◦ More ¡thorough ¡resilience ¡studies ¡ ¡ ◦ Experimental ¡study ¡of ¡asynchrony/consistency ¡tradeoffs ¡ ◦ Feasibility ¡for ¡other ¡exascale ¡services ¡(resilience, ¡etc.) ¡ Scalable Systems Lab
} Faculty ¡and ¡students ¡in ¡the ¡UNM ¡Scalable ¡Systems ¡Lab ¡ } Funding ¡from ¡the ¡New ¡Mexico ¡Consor@um ¡and ¡Los ¡ Alamos ¡Na@onal ¡Laboratory ¡ Scalable Systems Lab
Recommend
More recommend