science at extreme scale architectural challenges and
play

Science at Extreme Scale: Architectural Challenges and Opportunities - PowerPoint PPT Presentation

Science at Extreme Scale: Architectural Challenges and Opportunities DOE Computer Graphics Forum Argonne National Lab April 22, 2014 Lucy Nowell, PhD Computer Scien7st and Program Manager Advanced


  1. Science at Extreme Scale: Architectural Challenges and Opportunities DOE Computer Graphics Forum Argonne National Lab April 22, 2014 Lucy ¡Nowell, ¡PhD ¡ Computer ¡Scien7st ¡and ¡Program ¡Manager ¡ Advanced ¡Scien7fic ¡Compu7ng ¡Research ¡ Lucy.Nowell@science.doe.gov ¡ ¡ ¡ ¡

  2. Today’s ¡Talk ¡ • Where ¡we ¡expected ¡in ¡2010 ¡ • What ¡we ¡learned ¡in ¡2011 ¡ • Where ¡we ¡are ¡now ¡ • What ¡lies ¡ahead? ¡ Lucy Nowell, DOE CGF, April 2014

  3. Quick-­‑Facts ¡about ¡the ¡DOE ¡Office ¡of ¡Science ¡ Advanced ¡ScienDfic ¡ CompuDng ¡Research ¡(ASCR) ¡ ¡ Basic ¡Energy ¡Sciences ¡ ¡ Biological ¡and ¡Environmental ¡ Research ¡ ¡ Fusion ¡Energy ¡Sciences ¡ ¡ High ¡Energy ¡Physics ¡ ¡ Nuclear ¡Physics ¡ 3 ¡ Lucy Nowell, DOE CGF, April 2014

  4. DOE ¡Office ¡of ¡Science ¡User ¡Facility ¡Emphasis ¡ ¡ ¡ Source: ¡hHp://science.energy.gov/about/ ¡ ¡ 4 ¡ Lucy Nowell, DOE CGF, April 2014

  5. Users Come from all 50 States and D.C. Alcator ¡ DIII-­‑D ¡ NSTX ¡ SSRL ¡ ARM ¡ 2 6 JGI ¡ , 0 0 0 users/year ALS ¡ EMSL ¡ at 32 national FES ¡ ATLAS ¡ SSRL ¡(SLAC) ¡ scientific user HRIBF ¡ Bio ¡& ¡Enviro ¡ ALS ¡(LBNL) ¡ FaciliDes ¡ APS ¡(ANL) ¡ NSLS ¡(BNL) ¡ facilities TJNAF ¡ LCLS ¡(SLAC) ¡ HFIR ¡(ORNL) ¡ Lujan ¡(LANL) ¡ SNS ¡(ORNL) ¡ APS ¡ Nuclear ¡physics ¡ CCNM ¡(ANL) ¡ faciliDes ¡ RHIC ¡ Foundry ¡(LBNL) ¡ CNMS ¡(ORNL) ¡ Light ¡Sources ¡ CINT ¡(SNL/LANL) ¡ CFN ¡(BNL) ¡ B-­‑Factory ¡ NERSC ¡(LBNL) ¡ OLCF ¡(ORNL) ¡ High ¡energy ¡physics ¡ ALCF ¡(ANL) ¡ faciliDes ¡ Tevatron ¡(FNAL) ¡ B-­‑Factory, ¡SLAC ¡ Tevatron ¡ RHIC ¡(BNL) ¡ TJNAF ¡ ¡ HRIBF ¡(ORNL) ¡ ATLAS ¡(ANL) ¡ ALCF ¡ NSLS ¡ EMSL ¡(PNNL) ¡ OLCF ¡ CompuDng ¡ Neutron ¡ JGI ¡(LBNL) ¡ FaciliDes ¡ Sources ¡ ARM ¡ ¡ LCLS ¡ DIII-­‑D ¡(GA) ¡ ¡ Nano ¡ HFIR ¡ Alcator ¡(MIT) ¡ Centers ¡ NSTX ¡(PPPL) ¡ Lujan ¡ NERSC ¡ SNS ¡ NSRCs ¡ 5 ¡ Lucy Nowell, DOE CGF, April 2014

  6. ¡ ASCR’s ¡Research ¡ • Applied ¡Mathema7cs ¡ – Emphasizes ¡complex ¡systems, ¡uncertainty ¡quan7fica7on, ¡large ¡data ¡and ¡exascale ¡algorithms ¡ • Computer ¡Science ¡ – Exascale ¡compu7ng ¡(architecture, ¡many-­‑core, ¡power ¡aware, ¡fault ¡tolerance), ¡opera7ng ¡ systems, ¡compilers, ¡performance ¡tools; ¡scien7fic ¡data ¡management, ¡integra7on, ¡analysis ¡ and ¡visualiza7on ¡for ¡petabyte ¡to ¡exabyte ¡data ¡sets ¡ • Next ¡Genera7on ¡Networking ¡ – ¡Networking, ¡middleware, ¡and ¡collabora7on ¡technologies ¡ • Partnerships ¡ – Co-­‑Design ¡and ¡partnerships ¡to ¡pioneer ¡the ¡future ¡of ¡scien7fic ¡applica7ons; ¡ • Research ¡and ¡Evalua7on ¡Prototypes ¡ – Fast ¡Forward ¡and ¡Design ¡Forward ¡partnerships ¡with ¡Industry ¡and ¡Non-­‑Recurring ¡ Engineering ¡for ¡the ¡planned ¡facility ¡upgrades ¡ 6 ¡ Lucy Nowell, DOE CGF, April 2014

  7. Extreme Scale Science Data Explosion • Driven ¡by ¡exponenDal ¡technology ¡advances ¡ Genomics ¡ • Data ¡sources ¡ Data ¡Volume ¡increases ¡ to ¡10 ¡PB ¡in ¡FY21 ¡ • Scien7fic ¡Instruments ¡ • Scien7fic ¡Compu7ng ¡Facili7es ¡ High ¡Energy ¡Physics ¡ • Simula7on ¡Results ¡ (Large ¡Hadron ¡Collider) ¡ • Observa7onal ¡data ¡ 15 ¡PB ¡of ¡data/year ¡ Big ¡Data ¡and ¡Big ¡Compute ¡ • Light ¡Sources ¡ • Analyzing ¡Big ¡Data ¡requires ¡processing ¡(e.g., ¡ Approximately ¡ ¡ search, ¡transform, ¡analyze, ¡…) ¡ 300 ¡TB/day ¡ • Extreme ¡scale ¡compu7ng ¡will ¡enable ¡7mely ¡and ¡ more ¡complex ¡processing ¡of ¡increasingly ¡large ¡Big ¡ Climate ¡ Data ¡sets ¡ 1 ¡EB ¡= ¡10 18 ¡ bytes ¡of ¡storage ¡ Data ¡expected ¡to ¡be ¡ 1 ¡PB ¡= ¡10 15 ¡ bytes ¡of ¡storage ¡ hundreds ¡of ¡100 ¡EB ¡ 1 ¡TB ¡= ¡10 12 ¡ bytes ¡of ¡storage ¡ “Very ¡few ¡large ¡scale ¡applicaDons ¡of ¡pracDcal ¡importance ¡are ¡NOT ¡ ¡ data ¡intensive.” ¡ ¡ – ¡Alok ¡Choudhary, ¡IESP, ¡Kobe, ¡Japan, ¡April ¡2012 ¡ 7 ¡ Lucy Nowell, DOE CGF, April 2014

  8. The ¡Future ¡is ¡about ¡Energy ¡Efficient ¡CompuDng ¡ • At ¡$1M ¡per ¡MW, ¡energy ¡costs ¡are ¡substanDal ¡ • 1 ¡petaflop ¡in ¡2010 ¡used ¡3 ¡MW ¡ • 1 ¡exaflop ¡in ¡2018 ¡at ¡200 ¡MW ¡with ¡“usual” ¡scaling ¡ • 1 ¡exaflop ¡in ¡2018 ¡at ¡20 ¡MW ¡is ¡target ¡ usual ¡scaling ¡ goal ¡ 2005 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2010 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2015 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2020 ¡ 8 ¡ Lucy Nowell, DOE CGF, April 2014

  9. (Exa)Scale ¡Changes ¡Everything ¡(Circa ¡2009) ¡ ¡ ¡ DOE ¡Exascale ¡Ini7a7ve ¡Roadmap, ¡Architecture ¡and ¡Technology ¡Workshop, ¡San ¡Diego, ¡December, ¡2009. ¡ ¡ 9 ¡ Lucy Nowell, DOE CGF, April 2014

  10. Poten7al ¡System ¡Architectures … ¡what ¡did ¡we ¡get ¡wrong? ¡ Systems ¡ 2009 ¡ 2015 ¡ 2018 ¡2024 ¡ System ¡peak ¡ 2 ¡Peta ¡ 100-­‑200 ¡Peta ¡ 1 ¡Exa ¡ Power ¡ 6 ¡MW ¡ ~10 ¡MW ¡ 15MW ¡ ~20 ¡MW ¡ System ¡memory ¡ 0.3 ¡PB ¡ ~5 ¡PB ¡ ¡ yes! ¡ 10 ¡PB ¡ Node ¡performance ¡ 125 ¡GF ¡ 400 ¡GF ¡ ¡ ¡ ¡ ¡ 3TF ¡ 1-­‑10TF ¡ ¡10-­‑12TF ¡ Node ¡memory ¡BW ¡ 25 ¡GB/s ¡ 200 ¡GB/s ¡ ¡(2-­‑level!!) ¡ >400 ¡GB/s ¡(2-­‑level) ¡ 100GB/s@100GB ¡+ ¡ 250GB/s@200GB ¡+ ¡ 500GB/s@16GB ¡ ¡ 4TB/s ¡@ ¡32-­‑64GB ¡ Node ¡concurrency ¡ 12 ¡ O(100) ¡ ¡ yes ¡ O(1000) ¡ yes ¡ Interconnect ¡BW ¡(node) ¡ 1.5 ¡GB/s ¡ 25 ¡GB/s ¡ ¡ 10-­‑15GB/s ¡ 50 ¡GB/s ¡ 100+ ¡GB/s ¡ System ¡size ¡(nodes) ¡ 18,700 ¡ 250,000-­‑500,000 ¡ O(million) ¡ ¡ yes ¡ 30,000 ¡– ¡60,000 ¡ Total ¡concurrency ¡ 225,000 ¡ O(million) ¡ O(billion) ¡ Storage ¡ 15 ¡PB ¡ 150 ¡PB ¡ 500PB ¡ IO ¡ 0.2 ¡TB ¡ 10 ¡TB/s ¡ ¡ 50 ¡TB/s ¡ + ¡burst ¡buffer ¡100 ¡TB ¡ + ¡burst ¡buffer ¡ MTTI ¡ days ¡ days ¡ O(1 ¡day) ¡ 10 ¡ Lucy Nowell, DOE CGF, April 2014 Slide ¡courtesy ¡of ¡John ¡Shalf, ¡LBNL ¡

  11. Poten7al ¡System ¡Architectures ¡(2014 ¡es7mates) ¡ Systems ¡ 2009 ¡ 2015 ¡ 2024 ¡ System ¡peak ¡ 2 ¡Peta ¡ 100-­‑200 ¡Peta ¡ 1 ¡Exa ¡ Power ¡ 6 ¡MW ¡ 10-­‑15 ¡MW ¡ ~20 ¡MW ¡ System ¡memory ¡ 0.3 ¡PB ¡ 5 ¡PB ¡ 10 ¡PB ¡ Node ¡performance ¡ 125 ¡GF ¡ 3TF ¡ 10+TF ¡ Node ¡memory ¡BW ¡ 25 ¡GB/s ¡ 100GB ¡@ ¡100GB/s ¡ 200GB ¡@ ¡200GB/s ¡ 16GB ¡@ ¡500GB/s ¡ 32GB ¡@ ¡4TB/s ¡ Node ¡concurrency ¡ 12 ¡ O(100) ¡ O(1000) ¡ Interconnect ¡BW ¡ 1.5 ¡GB/s ¡ 10-­‑15 ¡GB/s ¡ 100-­‑400 ¡GB/s ¡ System ¡size ¡(nodes) ¡ 18,700 ¡ 30k-­‑60k ¡ O(million) ¡ Total ¡concurrency ¡ 225,000 ¡ O(million) ¡ O(billion) ¡ 15 ¡PB ¡ 150 ¡PB ¡+ ¡ 500 ¡PB ¡+ ¡ Storage ¡ 15 ¡PB ¡burst ¡buffer ¡ 50 ¡PB ¡burst ¡buffer ¡ IO ¡ 0.2 ¡TB ¡ 10 ¡TB/s ¡global ¡PFS ¡ 20 ¡TB/s ¡global ¡PFS ¡ + ¡100 ¡TB/s ¡burst ¡buffer ¡ + ¡500 ¡TB/s ¡burst ¡buf ¡ MTTI ¡ days ¡ days ¡ O(1 ¡day) ¡ 11 ¡ Lucy Nowell, DOE CGF, April 2014 Slide ¡courtesy ¡of ¡John ¡Shalf, ¡LBNL ¡

Recommend


More recommend