jack dongarra
play

Jack Dongarra University of Tennessee Oak Ridge National Laboratory - PowerPoint PPT Presentation

Jack Dongarra University of Tennessee Oak Ridge National Laboratory 11/20/13 1 TPP performance Rate Size 2 1E+09 224 PFlop/s 100 Pflop/s 100000000 33.9 PFlop/s 10 Pflop/s 10000000 1 Pflop/s 1000000 SUM


  1. Jack Dongarra University of Tennessee Oak Ridge National Laboratory 11/20/13 1

  2. TPP performance Rate Size 2

  3. 1E+09 224 ¡ ¡PFlop/s ¡ 100 Pflop/s 100000000 33.9 ¡PFlop/s ¡ 10 Pflop/s 10000000 1 Pflop/s 1000000 SUM ¡ 100 Tflop/s 100000 N=1 ¡ 10 Tflop/s 96.62 ¡TFlop/s ¡ 10000 6-8 years 1 Tflop/s 1000 1.17 ¡TFlop/s ¡ N=500 ¡ 100 Gflop/s My Laptop (70 Gflop/s) 100 59.7 ¡GFlop/s ¡ 10 Gflop/s 10 My iPad2 & iPhone 4s (1.02 Gflop/s) 1 Gflop/s 1 400 ¡MFlop/s ¡ 100 Mflop/s 0.1 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013

  4. 31 Systems 13 4 3 3 3 3 1 1 Rmax Name Country Linpack# Pflops Tianhe-2 (MilkyWay-2) 33.9 China NUDT: Hybrid Intel/Intel/Custom Titan 17.6 US Cray: Hybrid AMD/Nvidia/Custom 10 4 2 2 2 2 1 Sequoia 17.2 US IBM: BG-Q/Custom K Computer 10.5 Japan Fujitsu: Sparc/Custom Mira 8.59 US IBM: BG-Q/Custom Piz Daint 6.27 Switzerland Cray: Hybrid AMD/Nvidia/Custom Stampede 5.17 US Dell: Hybrid/Intel/Intel/IB JUQUEEN 5.01 Germany IBM: BG-Q/Custom Vulcan 4.29 US IBM: BG-Q/Custom SuperMUC 2.9 Germany IBM: Intel/IB TSUBAME 2.5 2.84 Japan Cluster Pltf: Hybrid Intel/Nvidia/IB Tianhe-1A 2.57 China NUDT: Hybrid Intel/Nvidia/Custom cascade 2.35 US Atipa: Hybrid Intel/Intel/IB Pangea 2.1 France Bull: Intel/IB 8 Hybrid Architectures Fermi 1.79 Italy IBM: BG-Q/Custom 8 IBM BG/Q Pleiades 1.54 US SGI Intel/IB 18 Custom X DARPA Trial Subset 1.52 US IBM: Intel/IB 12 Infiniband X Spirit 1.42 US SGI: Intel/IB 9 Look like “clusters” ARCHER 1.37 UK Cray: Intel/Custom Curie thin nodes 1.36 France Bull: Intel/IB Nebulae 1.27 China Dawning: Hybrid Intel/Nvidia/IB Yellowstone 1.26 US IBM: BG-Q/Custom Blue Joule 1.25 UK IBM: BG-Q/Custom Helios 1.24 Japan Bull: Intel/IB Garnet 1.17 US Cray: AMD/Custom Cielo 1.11 US Cray: AMD/Custom DiRAC 1.07 UK IBM: BG-Q/Custom Hopper 1.05 US Cray: AMD/Custom Tera-100 1.05 France Bull: Intel/IB Oakleaf-FX 1.04 Japan Fujitsu: Sparc/Custom 07 MPI 1.03 Germany iDataFlex: Intel/IB 4

  5. Total Performance [Tflop/s] 100,000 10,000 1,000 100 10 0 1 200 0 200 2 200 4 200 6 200 8 201 0 201 2 US

  6. Total Performance [Tflop/s] 100,000 10,000 1,000 100 10 0 1 200 0 200 2 200 4 200 6 200 8 201 0 201 2 EU US

  7. Total Performance [Tflop/s] 100,000 10,000 1,000 100 10 0 1 200 0 200 2 200 4 200 6 200 8 201 0 201 2 Japan EU US

  8. Total Performance [Tflop/s] 100,000 10,000 1,000 100 10 0 1 200 0 200 2 200 4 200 6 200 8 201 0 201 2 China Japan EU US

  9. Rmax % of Power MFlops Rank Site Computer Country Cores [Pflops] Peak [MW] /Watt National University Tianhe-2 NUDT, of Defense Xeon 12C 2.2GHz + IntelXeon 1 China 3,120,000 33.9 62 17.8 1905 Technology Phi (57c) + Custom DOE / OS Titan, Cray XK7 (16C) + Nvidia 2 USA 560,640 65 8.3 2120 17.6 Oak Ridge Nat Lab Kepler GPU (14c) + Custom DOE / NNSA Sequoia, BlueGene/Q (16c) 3 USA 1,572,864 17.2 85 7.9 2063 L Livermore Nat Lab + custom RIKEN Advanced Inst K computer Fujitsu SPARC64 4 Japan 705,024 10.5 93 12.7 827 for Comp Sci VIIIfx (8c) + Custom DOE / OS Mira, BlueGene/Q (16c) 5 USA 786,432 8.16 85 3.95 2066 Argonne Nat Lab + Custom Piz Daint, Cray XC30, Xeon 8C + 6 Swiss CSCS Swiss 115,984 6.27 81 2.3 2726 Nvidia Kepler (14c) + Custom Texas Advanced Stampede, Dell Intel (8c) + Intel 7 USA 204,900 61 3.3 806 2.66 Computing Center Xeon Phi (61c) + IB Forschungszentrum JuQUEEN, BlueGene/Q, 8 Germany 458,752 5.01 85 2.30 2178 Juelich (FZJ) Power BQC 16C 1.6GHz+Custom DOE / NNSA Vulcan, BlueGene/Q, 9 USA 393,216 4.29 85 1.97 2177 L Livermore Nat Lab Power BQC 16C 1.6GHz+Custom Leibniz 10 SuperMUC, Intel (8c) + IB Germany 147,456 2.90 91* 3.42 848 Rechenzentrum 500 Banking HP USA 22,212 .118 50

  10. Commodity Accelerator (GPU) 192 Cuda cores/SMX Intel Xeon Nvidia K20X “Kepler” 8 cores 2688 “Cuda cores” 3 GHz .732 GHz 8*4 ops/cycle 2688*2/3 ops/cycle 96 Gflop/s (DP) 1.31 Tflop/s (DP) 6 GB Interconnect 10 PCI-X 16 lane 64 Gb/s (8 GB/s) 1 GW/s

  11. 60 ¡ Intel ¡MIC ¡(13) ¡ Clearspeed ¡CSX600 ¡(0) ¡ 50 ¡ ATI ¡GPU ¡(2) ¡ IBM ¡PowerXCell ¡8i ¡(0) ¡ 40 ¡ Systems ¡ NVIDIA ¡2070 ¡(4) ¡ 30 ¡ NVIDIA ¡2050 ¡(7) ¡ NVIDIA ¡2090 ¡(11) ¡ 20 ¡ NVIDIA ¡K20 ¡(16) ¡ 10 ¡ 19 US 1 Australia 9 China 2 Brazil 0 ¡ 6 Japan 1 Saudi Arabia 4 Russia 1 South Korea 2006 ¡ 2007 ¡ 2008 ¡ 2009 ¡ 2010 ¡ 2011 ¡ 2012 ¡ 2013 ¡ 2 France 1 Spain 2 Germany 2 Switzerland 2 India 1 UK 1 Italy 1 Poland

  12. Fraction of Total TOP500 Performance 10% 15% 20% 25% 30% 35% 40% 0% 5% 2006 2007 2008 2009 2010 2011 2012 2013

  13. 100 90 Numbers of Systems 80 70 60 50 40 35 Top 500 November 2013 30 30 20 25 Pflop/s 20 10 15 0 10 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 5 0 0 100 200 300 400 500

  14. #1 System on the Top500 Over the Past 20 Years http://bit.ly/hpcg-benchmark 14 (16 machines in that club) 9 6 2 r_max Top500 List Computer (Tflop/s) n_max Hours MW TMC CM-5/1024 .060 52224 0.4 6/93 (1) Fujitsu Numerical Wind Tunnel .124 31920 0.1 1. 11/93 (1) Intel XP/S140 .143 55700 0.2 6/94 (1) 11/94 - 11/95 Fujitsu Numerical Wind Tunnel .170 42000 0.1 1. (3) Hitachi SR2201/1024 .220 138,240 2.2 6/96 (1) Hitachi CP-PACS/2048 .368 103,680 0.6 11/96 (1) 6/97 - 6/00 (7) Intel ASCI Red 2.38 362,880 3.7 .85 IBM ASCI White, SP Power3 375 MHz 7.23 518,096 3.6 11/00 - 11/01 (3) 6/02 - 6/04 (5) NEC Earth-Simulator 35.9 1,000,000 5.2 6.4 11/04 - 11/07 IBM BlueGene/L 478. 1,000,000 0.4 1.4 (7) 6/08 - 6/09 (3) IBM Roadrunner –PowerXCell 8i 3.2 Ghz 1,105. 2,329,599 2.1 2.3 11/09 - 6/10 (2) Cray Jaguar - XT5-HE 2.6 GHz 1,759. 5,474,272 17.3 6.9 NUDT Tianhe-1A, X5670 2.93Ghz NVIDIA 2,566. 3,600,000 3.4 4.0 11/10 (1) 6/11 - 11/11 (2) Fujitsu K computer, SPARC64 VIIIfx 10,510. 11,870,208 29.5 9.9 IBM Sequoia BlueGene/Q 16,324. 12,681,215 23.1 7.9 6/12 (1) Cray XK7 Titan AMD + NVIDIA Kepler 17,590. 4,423,680 0.9 8.2 11/12 (1) 6/13 – 11/13(?) NUDT Tianhe-2 Intel IvyBridge & Xeon Phi 33,862. 9,960,000 5.4 17.8

  15. Processors ¡/ ¡Systems ¡ 2% ¡1% ¡ 1% ¡ Intel ¡SandyBridge ¡ 4% ¡ Intel ¡Nehalem ¡ 4% ¡ AMD ¡x86_64 ¡ 10% ¡ PowerPC ¡ Power ¡ 55% ¡ 23% ¡ Intel ¡Core ¡ Sparc ¡ Others ¡

  16. Vendors ¡/ ¡System ¡Share ¡ Others ¡ Dell ¡ NEC ¡ Hitachi ¡ IBM ¡ 33 ¡ 8 ¡ 4 ¡ 4 ¡ HP ¡ 6% ¡ 2% ¡ 1% ¡ 1% ¡ IBM ¡ Cray ¡Inc. ¡ NUDT ¡ 164 ¡ SGI ¡ 4 ¡ 33% ¡ Fujitsu ¡ 1% ¡ Bull ¡ 8 ¡ Fujitsu ¡ 2% ¡ Dell ¡ Cray ¡Inc. ¡ Bull ¡ 48 ¡ NUDT ¡ 14 ¡ 9% ¡ 3% ¡ Hitachi ¡ SGI ¡ HP ¡ NEC ¡ 17 ¡ 196 ¡ Others ¡ 3% ¡ 39% ¡

  17. Absolute Counts US: 267 China: 63 Japan: 28 UK: 23 France: 22 Germany: 20

  18. 8% Customer ¡Segments ¡ 20% 56%

  19. 1E+11 1E+10 1 Eflop/s 1E+09 100000000 100 Pflop/s 10 Pflop/s 10000000 1 Pflop/s 1000000 N=1 ¡ 100 Tflop/s 100000 10000 10 Tflop/s 1000 1 Tflop/s N=500 ¡ 100 100 Gflop/s 10 10 Gflop/s 1 1 Gflop/s 1996 2002 2008 2014 2020 0.1

  20. Systems 2013 2020-2022 Difference Today & Exa Tianhe-2 System peak 55 Pflop/s 1 Eflop/s ~20x Power 18 MW ~20 MW O(1) ~15x (3 Gflops/W) (50 Gflops/W) System memory 1.4 PB 32 - 64 PB ~50x (1.024 PB CPU + .384 PB CoP) Node performance 3.43 TF/s 1.2 or 15TF/s O(1) (.4 CPU +3 CoP) Node concurrency 24 cores CPU + O(1k) or 10k ~5x - ~50x 171 cores CoP Node Interconnect BW 6.36 GB/s 200-400GB/s ~40x System size (nodes) 16,000 O(100,000) or O(1M) ~6x - ~60x Total concurrency 3.12 M O(billion) ~100x 12.48M threads (4/core) MTTF Few / day O(<1 day) O(?)

  21. Systems 2013 2020-2022 Difference Today & Exa Tianhe-2 System peak 55 Pflop/s 1 Eflop/s ~20x Power 18 MW ~20 MW O(1) ~15x (3 Gflops/W) (50 Gflops/W) System memory 1.4 PB 32 - 64 PB ~50x (1.024 PB CPU + .384 PB CoP) Node performance 3.43 TF/s 1.2 or 15TF/s O(1) (.4 CPU +3 CoP) Node concurrency 24 cores CPU + O(1k) or 10k ~5x - ~50x 171 cores CoP Node Interconnect BW 6.36 GB/s 200-400GB/s ~40x System size (nodes) 16,000 O(100,000) or O(1M) ~6x - ~60x Total concurrency 3.12 M O(billion) ~100x 12.48M threads (4/core) MTTF Few / day O(<1 day) O(?)

  22. Systems 2013 2020-2022 Difference Today & Exa Tianhe-2 System peak 55 Pflop/s 1 Eflop/s ~20x Power 18 MW ~20 MW O(1) ~15x (3 Gflops/W) (50 Gflops/W) System memory 1.4 PB 32 - 64 PB ~50x (1.024 PB CPU + .384 PB CoP) Node performance 3.43 TF/s 1.2 or 15TF/s O(1) (.4 CPU +3 CoP) Node concurrency 24 cores CPU + O(1k) or 10k ~5x - ~50x 171 cores CoP Node Interconnect BW 6.36 GB/s 200-400GB/s ~40x System size (nodes) 16,000 O(100,000) or O(1M) ~6x - ~60x Total concurrency 3.12 M O(billion) ~100x 12.48M threads (4/core) MTTF Few / day Many / day O(?)

Recommend


More recommend