waiting for 6 years
play

Waiting for 6+ years Pete Beckman Argonne National Laboratory - PowerPoint PPT Presentation

Argo An Exascale Operating System and Runtime Research Project Pete Beckman Argonne Naonal Laboratory Director, Exascale Technology and Compung Instute Co-Director,


  1. Argo An Exascale Operating System and Runtime Research Project Pete ¡Beckman ¡ Argonne ¡Na�onal ¡Laboratory ¡ ¡ Director, ¡Exascale ¡Technology ¡and ¡Compu�ng ¡Ins�tute ¡ Co-­‑Director, ¡Northwestern ¡University ¡– ¡Argonne ¡Ins�tute ¡of ¡Science ¡and ¡Engineering ¡

  2. Waiting for 6+ years… Pete Beckman Argonne National Laboratory 2

  3. Data from Peter Kogge, Notre Dame Pete Beckman Argonne National Laboratory 3

  4. The Argo Team: § ANL : ¡Pete ¡Beckman, ¡Marc ¡Snir, ¡ Pavan ¡Balaji, ¡Rinku ¡ Gupta, ¡Kamil ¡Iskra, ¡Rajeev ¡ Thakur, ¡Kazutomo ¡Yoshii ¡ ¡ § BU : ¡Jonathan ¡Appavoo, ¡Orran ¡Krieger ¡ § LLNL : ¡Maya ¡Gokhale, ¡Edgar ¡Leon, ¡Barry ¡Rountree, ¡ Mar�n ¡Schulz, ¡Brian ¡Van ¡Essen ¡ § PNNL : ¡Sriram ¡Krishnamoorthy, ¡Roberto ¡Gioiosa, ¡ David ¡Callahan ¡ ¡ § UC : ¡Henry ¡Hoffmann ¡ § UIUC : ¡Laxmikant ¡Kale, ¡Eric ¡Bohm, ¡Ramprasad ¡ Venkataraman ¡ § UO : ¡Allen ¡Malony, ¡Sameer ¡Shende, ¡Kevin ¡Huck ¡ § UTK : ¡Jack ¡Dongarra, ¡George ¡Bosilca ¡ ¡ Pete Beckman Argonne National Laboratory 4

  5. Argo Key Innovation Areas: (Focusing on Global OS/R) § Node ¡OS ¡ § Lightweight ¡Run�me ¡for ¡Concurrency ¡ § Event, ¡Control, ¡and ¡Performance ¡Backplanes ¡ § Global ¡Op�miza�on ¡ Pete Beckman Argonne National Laboratory 5

  6. Key New Argo Abstractions § Enclave ¡ – (recursive) ¡ – tree-­‑based ¡hierarchy ¡and ¡recursive ¡decomposi�on ¡ ¡ – At ¡each ¡level ¡in ¡the ¡hierarchy, ¡four ¡key ¡aspects ¡change: ¡granularity ¡of ¡ control, ¡communica�on ¡frequency, ¡goals, ¡and ¡data ¡resolu�on. ¡ ¡ Pete Beckman Argonne National Laboratory 6

  7. Benefits § Embedded ¡feedback ¡and ¡response ¡mechanisms ¡ – Self-­‑aware, ¡Goal-­‑based ¡ ¡ – #include <sanjay_presentation.pptx> � § Meta-­‑handle ¡for ¡enclaves ¡ – Can ¡write ¡meta-­‑programs ¡for ¡enclave ¡ • (manage ¡parallelism, ¡task-­‑manager, ¡etc) ¡ – Allows ¡applica�on-­‑specific ¡fault ¡managers, ¡streaming ¡I/O ¡handlers, ¡ many-­‑task ¡UQ ¡engines, ¡and ¡event-­‑based ¡coordina�on ¡of ¡coupled ¡ components ¡ – #include <sanjay_presentation.pptx> � § Hierarchical, ¡coordinated, ¡global ¡system ¡can ¡set ¡and ¡manage ¡ power ¡budgets, ¡respond ¡to ¡faults, ¡support ¡enclave ¡ components ¡that ¡leverage ¡machine ¡learning, ¡and ¡manage ¡ intranode ¡parallelism. ¡ ¡ Pete Beckman Argonne National Laboratory 7

  8. Argo: Resource Management Design Principles § Resource ¡management ¡is ¡hierarchical, ¡and ¡managers ¡ are ¡stackable ¡ ¡ § Resource ¡managers ¡are ¡integrated ¡ ¡ § Resource ¡managers ¡are ¡customizable ¡and ¡adaptable ¡ ¡ § Sharing ¡is ¡avoided ¡whenever ¡possible ¡ ¡ § Strict ¡enforcement ¡is ¡costly ¡ ¡ Pete Beckman Argonne National Laboratory 8

  9. A Peek Into Research Areas Pete Beckman Argonne National Laboratory 9

  10. Threads/Tasks: Managing Exploding Parallelism § Dynamic ¡parallelism ¡and ¡decomposi�on ¡ – Programmer ¡cannot ¡hand-­‑pick ¡granularity ¡/ ¡resource ¡mapping ¡ • (equal ¡work ¡!= ¡equal ¡�me) ¡ Variability ¡is ¡the ¡new ¡norm: ¡ ¡Power ¡ ¡Resilience ¡ ¡Intranode ¡Conten�on ¡ From ¡Brian ¡Van ¡ Straalen ¡ Pete Beckman Argonne National Laboratory 10

  11. PLASMA: Parallel Linear Algebra s/w for Multicore Architectures § Objec�ves ¡ – High ¡u�liza�on ¡of ¡each ¡core ¡ Cholesky – Scaling ¡to ¡large ¡number ¡of ¡cores ¡ 4 x 4 – Shared ¡or ¡distributed ¡memory ¡ § Methodology ¡ – Dynamic ¡DAG ¡scheduling ¡ – Explicit ¡parallelism ¡ – Implicit ¡communica�on ¡ – Fine ¡granularity ¡/ ¡block ¡data ¡layout ¡ § Arbitrary ¡DAG ¡with ¡dynamic ¡scheduling ¡ Fork-­‑join ¡ parallelism ¡ DAG ¡scheduled ¡ parallelism ¡ Courtesy ¡Jack ¡Dongarra: ¡ Pete Beckman Argonne National Laboratory 11 Time ¡

  12. Courtesy: ¡Laxmikant ¡Kale ¡ Charm++ (the run-time and execution model) Pete Beckman Argonne National Laboratory 12

  13. Google ¡(re-­‑discovers) ¡OS ¡Noise ¡ Pete Beckman Argonne National Laboratory 13

  14. Argo Parallelism (Threads/Tasks) § Move ¡away ¡from ¡SPMD ¡block ¡synchronous ¡ § Link ¡lightweight ¡thread/task ¡run�me ¡into ¡OS ¡ § Support ¡data ¡dependency ¡driven ¡computa�on ¡ § Explore ¡memory ¡placement ¡ § Explore ¡pluggable ¡schedulers ¡ § Hardware ¡support ¡for ¡lightweight ¡ac�va�on ¡ – (e.g. ¡BG/Q ¡wake-­‑on, ¡etc) ¡ Project ¡Lead: ¡ ¡Sanjay ¡Kale ¡ Pete Beckman Argonne National Laboratory 14

  15. Core-Specialization for Node OS/R Project ¡Lead: ¡ ¡Kamil ¡Iskra ¡ Pete Beckman Argonne National Laboratory 15

  16. Memory: Technology Summary from Rob Schreiber Pete Beckman Argonne National Laboratory 16

  17. Significant Portion of Memory will be non-volatile $ ¡ NVRAM ¡ RAM ¡ § Helps ¡reduce ¡power ¡ § Helps ¡with ¡resilience ¡ § Helps ¡with ¡cost ¡ § How ¡do ¡we ¡represent ¡this ¡in ¡the ¡OS/R? ¡ Pete Beckman Argonne National Laboratory 17

  18. Power/energy trace tools l A ¡command ¡line ¡tool ¡ ¡ l No ¡source ¡code ¡modifica�on ¡is ¡required ¡ l Sampling ¡the ¡power ¡consump�on ¡with ¡specified ¡interval ¡ l Summarize ¡the ¡total ¡energy ¡consump�on ¡ e.g. $ etrace ./app SOCKET0_ELAPSED=2.000681 SOCKET0_PKG_ENERGY=71.604248 SOCKET0_PP0_ENERGY=44.639069 $ etrace -o file -i 0.1 ./app # output to file Pete Beckman Argonne National Laboratory 18

  19. Global View § Leverage ¡goal-­‑based ¡op�miza�on ¡concepts ¡ § “Self-­‑Aware” ¡Compu�ng ¡ Op�miza�on ¡Lead: ¡Hank ¡Hoffmann ¡ Global ¡View ¡Project ¡Leads: ¡ ¡Marc ¡Snir, ¡Rajeev ¡Thakur ¡ Backplane ¡Project ¡Leads: ¡: ¡Allen ¡Malony, ¡Sameer ¡Shende ¡ ¡ Pete Beckman Argonne National Laboratory 19

  20. Wrapup: § Node ¡OS ¡ § Lightweight ¡Run�me ¡for ¡Concurrency ¡ § Event, ¡Control, ¡and ¡Performance ¡Backplanes ¡ § Global ¡Op�miza�on ¡ Pete Beckman Argonne National Laboratory 20

  21. Questions? 3 ¡year ¡project: ¡ ¡WE ¡NEED ¡POSTDOCS ¡AND ¡GRAD ¡ ¡ STUDENTS ¡TO ¡COME ¡TO ¡ARGONNE ¡AND ¡HELP! ¡ Pete Beckman Argonne National Laboratory 21

Recommend


More recommend