breakthrough science on gpu clusters
play

Breakthrough Science on GPU clusters John Taylor , Tomasz - PowerPoint PPT Presentation

Breakthrough Science on GPU clusters John Taylor , Tomasz Bednarz, Steve McMahon - CSIRO March 2015 CSS Darwin About CSIRO Cairns Atherton


  1. Breakthrough ¡Science ¡on ¡GPU ¡clusters ¡ John ¡Taylor ¡, ¡Tomasz ¡Bednarz, ¡Steve ¡McMahon ¡-­‑ ¡ ¡CSIRO ¡ ¡ March ¡2015 ¡ CSS ¡

  2. Darwin ¡ About ¡CSIRO ¡ Cairns ¡ Atherton ¡ People ¡ 5000 ¡ Townsville ¡ 2 ¡sites ¡ Alice ¡Springs ¡ LocaPons ¡ 58 ¡ Rockhampton ¡ Bribie ¡ ¡ Flagships ¡ 9 ¡ Island ¡ Murchison ¡ Toowoomba ¡ Brisbane ¡ GaIon ¡ 6 ¡sites ¡ ¡ Myall ¡Vale ¡ Geraldton ¡ ¡ Armidale ¡ Narrabri ¡ ¡ 2 ¡sites ¡ 2 ¡sites ¡ Budget ¡ $1.3B+ ¡ Mopra ¡ Newcastle ¡ Parkes ¡ Perth ¡ Adelaide ¡ Irymple ¡ Griffith ¡ Sydney ¡ ¡ 5 ¡sites ¡ 3 ¡sites ¡ 2 ¡sites ¡ Canberra ¡ ¡ 7 ¡sites ¡ Wodonga ¡ Werribee ¡ 2 ¡sites ¡ Belmont ¡ Melbourne ¡ 5 ¡sites ¡ ¡ Geelong ¡ 62% ¡of ¡our ¡people ¡hold ¡ Hobart ¡ Sandy ¡Bay ¡ In ¡partnership ¡with ¡ Top ¡1% ¡of ¡global ¡research ¡ university ¡degrees ¡ ¡ universi@es, ¡we ¡ ¡ ins@tu@ons ¡in ¡14 ¡of ¡22 ¡research ¡ 2000 ¡ doctorates ¡ ¡ ¡ develop ¡ 650 ¡ fields ¡ ¡ ¡ Top ¡0.1% ¡ in ¡4 ¡research ¡fields ¡ ¡ 500 ¡ masters ¡ postgraduate ¡ research ¡students ¡

  3. 2009: ¡CSIRO ¡Bragg ¡Cluster ¡ Launch, ¡first ¡of ¡its ¡kind ¡in ¡AU ¡ 2013: ¡Bragg ¡upgrade ¡-­‑ ¡384 ¡ November ¡2014: ¡ Kepler ¡K20M ¡GPUs ¡ #154 ¡TOP500 ¡List ¡ #11 ¡Green500 ¡List ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  4. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡and ¡Green500 ¡Rankings ¡ 350 ¡ 300 ¡ 250 ¡ 200 ¡ 150 ¡ TOP500 ¡Rank ¡ 100 ¡ Green500 ¡rank ¡ 50 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  5. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡Performance ¡ 500 ¡ 400 ¡ 300 ¡ Rmax ¡(TFlops) ¡ 200 ¡ Rpeak ¡(Tflops) ¡ 100 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  6. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ TOP500 ¡Performance ¡-­‑ ¡Efficiency ¡ 0.9 ¡ 0.8 ¡ 0.7 ¡ 0.6 ¡ 0.5 ¡ 0.4 ¡ 0.3 ¡ Rmax/Rpeak ¡ 0.2 ¡ 0.1 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  7. CSIRO ¡Bragg ¡GPU ¡Cluster ¡– ¡The ¡Future ¡ TOP500 ¡Performance ¡ 1200 ¡ ESTIMATES ¡ 1000 ¡ 800 ¡ 600 ¡ Rmax ¡(TFlops) ¡ 400 ¡ Rpeak ¡(Tflops) ¡ 200 ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  8. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ ¡ Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡ 500 ¡ 400 ¡ 300 ¡ CPU ¡(Tflops) ¡ 200 ¡ GPU ¡(Tflops) ¡ 100 ¡ CPU+GPU ¡(TFlops) ¡ 0 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  9. CSIRO ¡Bragg ¡GPU ¡Cluster ¡ ¡ Peak ¡performance ¡from ¡CPU ¡and ¡GPU ¡ RaPo ¡of ¡GPU/CPU ¡Flops ¡ 15 ¡ 10 ¡ 2xCPU ¡ ra@o ¡ 5 ¡ 0 ¡ 2010/11 ¡2011/6 ¡2011/11 ¡2012/6 ¡2012/11 ¡2013/6 ¡2013/11 ¡2014/6 ¡2014/11 ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  10. More ¡compute ¡power ¡means ¡ ¡ Greater ¡accuracy ¡ Larger ¡problem ¡domains ¡ Shorter ¡compute ¡Pmes ¡ ¡ ¡ Large ¡problem/parameter ¡ spaces ¡can ¡be ¡explored ¡ ¡ ¡ More ¡breakthrough ¡science ¡done ¡ ¡

  11. CSS ¡Capability ¡Development ¡Placorms ¡ CSIRO ¡Computa@onal ¡& ¡Simula@on ¡Sciences ¡ Imaging Model Data Computational Data Constrained Processing Fusion & Material Design Materials Modelling & Visualisation Spatial Modelling • Developing ¡core, ¡domain ¡specific, ¡computa@onal ¡capability ¡ • Developing ¡generic ¡computa@onal ¡tools ¡to ¡aid ¡domain ¡work ¡across ¡CSIRO ¡ • Deploying ¡GPU ¡capability/tools ¡back ¡into ¡Flagships ¡ CSIRO ¡Computa@onal ¡and ¡Simula@on ¡Sciences ¡

  12. Principles ¡of ¡X-­‑ray ¡Computed ¡Tomography ¡(CT) ¡ • Typical ¡experimental ¡ ¡ set-­‑up ¡involves ¡an ¡X-­‑ray ¡ Detector ¡ source, ¡a ¡sample ¡on ¡a ¡ Object ¡ rota@on ¡stage ¡and ¡a ¡2D ¡ X-­‑ray ¡source ¡ posi@on-­‑sensi@ve ¡detector ¡ • Images ¡of ¡the ¡sample ¡are ¡ collected ¡at ¡many ¡different ¡ rota@on ¡angles ¡spanning ¡180 ¡ or ¡360 ¡degrees ¡ • Acquired ¡images ¡are ¡ processed ¡in ¡a ¡computer ¡to ¡ produce ¡a ¡3D ¡representa@on ¡ of ¡the ¡internal ¡structure ¡of ¡ the ¡sample ¡

  13. Insect CT scan, rendered using Drishti ( http://anusf.anu.edu.au/Vizlab/drishti/ ) by Sherry Mayo (CSIRO)

  14. ¡CSIRO ¡X-­‑TRACT ¡synchrotron ¡map ¡

  15. Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ Available ¡now ¡ à à ¡www.cloudimaging.net.au ¡ ¡ + ¡ + ¡ HCA-­‑Vision ¡ MILXView ¡ X-­‑TRACT ¡ Workflows ¡in ¡acPon ¡ Create ¡and ¡Share ¡your ¡imaging ¡workflows ¡with ¡ other ¡scien@sts. ¡ Connect ¡various ¡imaging ¡func@ons ¡to ¡create ¡more ¡ complex ¡imaging ¡algorithms. ¡ Visualise ¡the ¡results. ¡ Reuse ¡the ¡workflows ¡on ¡different ¡datasets. ¡ Adjust ¡the ¡parameters ¡whenever ¡required. ¡ Open ¡for ¡Australian ¡scien@sts. ¡ Cloud ¡Based ¡Image ¡Analysis ¡and ¡Processing ¡Toolbox ¡ ¡| ¡ ¡Contact: ¡Tomasz ¡Bednarz ¡ ¡

  16. RadiaPon ¡therapy ¡applicaPons ¡ Modern ¡radia@on ¡therapy ¡is ¡to ¡a ¡large ¡extent ¡a ¡computa@onal ¡discipline ¡and ¡can ¡greatly ¡benefit ¡from ¡use ¡of ¡task-­‑ ¡ and ¡data-­‑parallelism. ¡Some ¡applica@ons ¡were ¡demonstrated ¡on ¡GPUs ¡already: ¡ CT ¡reconstruc@ons ¡ • Image ¡registra@ons ¡ • Treatment ¡planning ¡ • Dose ¡computa@ons ¡ (e.g. ¡X ¡Gu, ¡U ¡Jelen ¡et ¡al ¡2011 ¡PMB ¡56) ¡ • Need ¡for ¡speed: ¡imaging ¡and ¡treatment ¡verifica@on ¡can ¡be ¡used ¡as ¡feedback ¡to ¡improve ¡the ¡treatment ¡(adap@ve ¡ radiotherapy), ¡currently ¡offline ¡(mostly ¡popula@on-­‑based), ¡one ¡day ¡online. ¡ Par@cle ¡(proton/carbon ¡ion) ¡therapy ¡with ¡raster ¡scanning ¡@ ¡University ¡of ¡Marburg: ¡ most ¡precise ¡external ¡beam ¡technique ¡(only ¡5 ¡centers ¡worldwide: ¡3 ¡ac@ve, ¡2 ¡to ¡start) ¡ • increased ¡precision ¡= ¡increased ¡need ¡for ¡verifica@on ¡(more ¡computa@ons) ¡ • longer ¡computa@onal ¡@mes ¡(small ¡head ¡case: ¡1 ¡hour ¡on ¡single-­‑thread) ¡ • Collabora@ve ¡project ¡between ¡CSIRO ¡and ¡University ¡of ¡Marburg ¡ ¡ Ammazzalorso, ¡Bednarz, ¡Jelen ¡

  17. Plan ¡robustness ¡in ¡radiaPon ¡therapy ¡ Automa@c ¡discovery ¡of ¡robust ¡beam ¡setups. ¡ Results ¡(mean ¡and ¡sd ¡for ¡a ¡single ¡beam): ¡ 4-­‑core ¡Intel ¡Xeon ¡W3530 ¡2.8GHz ¡12GB ¡RAM ¡+ ¡NVIDIA ¡Tesla ¡C2050 ¡3GB ¡RAM ¡ • 10 ¡skull ¡base ¡cases, ¡42 ¡beams ¡direc@ons ¡(10 ¡runs ¡each ¡for ¡@ming ¡stats) ¡ • 4k-­‑40k ¡pencils ¡of ¡120-­‑350 ¡samples, ¡2 ¡mm ¡analysis ¡radius ¡(0.5 ¡mm ¡step) ¡ • Single-­‑precision ¡floa@ng-­‑point ¡opera@ons ¡only ¡(sufficient ¡precision) ¡ • P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Pool mean(sd) ms Native 21299 9891 6258 15768 4342 10888 10117 5464 8155 11388 10357 (1 thread) (6628) (2837) (1485) (4959) (1136) (3179) (2849) (1470) (2195) (3936) (5941) GPU 219 122 88 148 61 160 151 52 109 126 124 OpenCL (109) (51) (38) (56) (24) (65) (64) (22) (46) (61) (75) 119 x 98 x 87 x 123 x 83 x 81 x 82 x 124 x 90 x 106 x 99 x Gain (36) (34) (30) (36) (25) (24) (30) (42) (31) (29) (36) CPU 6498 2552 1898 4810 1324 3280 3051 1396 2481 2935 3022 OpenCL (1996) (615) (438) (1495) (331) (944) (841) (310) (649) (818) (1798) 3.3 x 3.8 x 3.3 x 3.3 x 3.3 x 3.3 x 3.3 x 3.9 x 3.3 x 3.8 x 3.5 x Gain (0.0) (0.4) (0.0) (0.0) (0.0) (0.0) (0.0) (0.4) (0.0) (0.4) (0.3) F. Ammazzalorso (Uni-Marburg), T. Bednarz (CSIRO) and U. Jelen (Uni-Marburg) - Accepted for journal publication in IOP JPCS (upcoming)

Recommend


More recommend