1 CREST Development of System Software Technologies for post-Peta Scale High Performance Computing Project Overview Atsushi Hori RIKEN AICS
2 Research Groups • RIKEN AICS • A. Hori (PI) • Hitachi • A. Sutoh • Tokyo Univ. of Agriculture and Technology • Prof. M. Namiki • Univ. of Tennessee, ICL • J. Dongarra
3 Project Overview • “Development of System Software Technologies for post-Peta Scale High Performance Computing” ➡ R&D of System Software for Many-core and Multi-core architecture • Broad Research Area • Operating System • Communication and I/O • Light-weight Multi-thread • Fault Resilience • FY2011 - FY2015 (until May 2016)
4 Research Outcomes • Broad Research Area • Operating System • McKernel, PVAS, ... • Communication and I/O • M-PVAS, EARTH, ... • Light-weight Multi-thread • Agent on (M-)PVAS, ... • Fault Resilience • ULFM on the K, Sliding Substitution, ...
5 Today’s Topics • Broad Research Area • Operating System • McKernel, PVAS, ... • Communication and I/O • M-PVAS, EARTH, ... • Light-weight Multi-thread • Agent on (M-)PVAS, ... • Fault Resilience • ULFM on the K, Sliding Substitution, ...
6 PVAS and M-PVAS • New Task Model (patched Linux Kernel) • for Many-core: PVAS • for Hybrid architecture: M-PVAS Multiple PVAS ! Linux Address Map PVAS Address Map Address Map Process Multi-Thread LOW LOW PVAS Task 0 ! Export PVAS Task 0 ! on Many-Core TEXT on Many-Core Many-Core TEXT PVAS ! TEXT DATA & BSS Task 0 PVAS Task 1 ! on Many-Core DATA & BSS DATA & BSS HEAP Address Address HEAP PVAS ! STACK0 PVAS Task 0 ! T ask 1 on Multi-Core HEAP Mutli-Core STACK STACK1 PVAS Task 1 ! on Multi-Core STACK Many-Core ! KERNEL KERNEL KERNEL KERNEL HIGH HIGH Multi-Core ! KERNEL
IPSJ-SIGHPC, 3月,2015 スと等価 CG (NP=8) IS (NP=8) [島田@PGAS’12] CREST領域会議 2013/10/11 PVAS [島田@PGAS’12、島田@MES’13 他] PVAS (Partitioned Virtual Address Space) ⇒ プロセスとスレッドの「いいとこ 取り」 ⇒ Linux カーネルにパッチ メニーコアCPUにおけるコア間通信 の高速化 ⇒ ノード内「通信」はメモリアクセ ⇒ OMPにおいてデフォルトをprivate CREST中間評価 PVAS を用いたノード内通信の評価 IS (NP=8) CG (NP=8) NPB (XcalableMP) での評価 CREST中間評価 RIKEN AICS [島田@PGAS’12] CREST中間評価 とするのとほぼ同じ RIKEN AICS operations 1000 times in parallel PVAS - VM ops [島田@MES’13] CREST中間評価 RIKEN AICS ⇒ PGAS系言語で特に有効 NPB (XcalableMP) での評価 RIKEN AICS 情報処理学会研究報告 ⇒ ノード内「通信」はメモリアクセ 7 Better 6 Better CREST領域会議 2013/10/11 PVAS [島田@PGAS’12、島田@MES’13 他] PVAS (Partitioned Virtual Address Space) ⇒ プロセスとスレッドの「いいとこ 取り」 ⇒ Linux カーネルにパッチ メニーコアCPUにおけるコア間通信 の高速化 スと等価 [島田@PGAS’12] mmap and munmap operations update the memory region tree 7 PVAS を用いたノード内通信の評価 CREST中間評価 RIKEN AICS Page fault handling operations incurred by memset update the page table tree mmap allocates 1MB of memory operations 1000 times in parallel ⇒ OMPにおいてデフォルトをprivate In this benchmark, multiple tasks executes mmap, memset, and munmap PVAS - VM ops [島田@MES’13] CREST中間評価 RIKEN AICS ⇒ PGAS系言語で特に有効 とするのとほぼ同じ [島田@PGAS’12] 図 8 内並列化に対応しているが, 通信と 通信によって,性能が低 下した. を使用することで, 通信の時間を抑 えることができ, との性能差を縮めることができた. を用いることで, の通信時間を抑えるこ とができれば,さらに との性能差を縮めることがで きる. 現在の設計, 実装では, 間,ノード間通信に対応していない.そこで,今後 を使用することが望まれる. 島田明男, 堀敦史, 石川裕:新しいタスクモデルに XMP (gmove) のPVAS実装,大川他(筑波大) ⓒ 姫野ベンチマーク:姫野ベンチマーク, 告, ノード内通信の高性能化,情報処理学会研究報 よる 仕様書, 5 参考文献 通信の設計を行う予定である. 他の通信として, ドを対象とした設計,実装を行い,性能測定を行う.また, ,複数ノー は,大規模計算に対応できるように,複数 は や の性能 通信 に減少 次元分割では,袖通信の通信時間を ル計算の 次元ステンシ 回に置き換えた.その結果, を を省き, の を使用することで, 通信が発生した. と では,通信のための の通信を省いた計算時間 図 させることができた. 次元分割では,重複して持 能を得ており, を よりも高い性 が と では, よりも性能を引き出すことができた. 使用するこで, が同程度であり,プロセス数によっては, たせたベクトルの転置の通信時間を の性能 , , 姫野ベンチマークでは, ことができた. 程度に減少させる Better Partitioned Virtual Address Space Vol.2015-HPC-148 No.22 2015/3/3 Memory is Invaluable NEMESIS-Redezvous NEMESIS-Eager PVAS 1000 10E+3 300,000 • Example IMB PingPong Latency [usec] 100,000 Vader BTL H J 100 1E+3 SM-KNEM BTL J B Bandwidth [MB/s] • OpenMPI Intra-Node Comm. J H 10,000 J B H Latency [us] J B SM BTL H MPIC B J B H J B 100E+0 • Shared Memory (SM) 1,000 10 J H B J H H B J H B J H 100 J B H • KNEM (NEMESIS) J 10E+0 J 1 J J J J H B B B H B B B H B H H 10 H B H • Vader (Xpmem) 0.1 1E+0 Eager Protocol 100E+0 1E+3 100E+3 1E+6 10E+0 100E+0 1E+3 10E+3 100E+3 1E+6 10E+6 10E+0 10E+3 10E+6 1 0.1 1 10 100 1000 10000100000 • Vader is the fastest, but IMB PingPong Message Size [KByte] Memory Usage [MByte] 3E+3 H GASNSET-Shmem GASNET-AM PVAS consumes a lot of memory 100 100E+3 2E+3 • Memory vs. Speed H 10 10E+3 B J Bandwidth [MB/s] 1E+3 Latency [us] 1 1E+3 H J • High Performance and B One Sided B J H Total Page Table Size [MByte] 0.1 100E+0 B J 0E+0 600 • Low memory consumption H 10E+0 0.01 500 300MB • Page table size must be 400 0.001 1E+0 Rendezvous Protocol H B J 300 100E-3 0.0001 taken into account 1E+0 10E+0 100E+0 1E+3 10E+3 100E+3 1E+6 10E+6 100E+6 1E+0 10E+0 100E+0 1E+3 10E+3 100E+3 1E+6 10E+6 100E+6 200 J B H 100 J B H 300MB = 5% of 6GB B J 0 0 60 120 180 240 IMB AlltoAll (2KiB) Number of Processes Rendezvous Protocol 11 25 gmove ‣ In this benchmark, multiple tasks executes mmap, memset, and munmap 20 reduction Time (s) ! ‣ mmap and munmap operations update the memory region tree 15 ‣ mmap allocates 1MB of memory ‣ Page fault handling operations incurred by memset update the page table tree 10 5 0 32 64 128 32 64 128 32 64 128 32 64 128 XMP-MPI XMP-MPI-NOALLOC XMP-PVAS MPI 図 12 NPB-CG の反復回数 32 回による通信時間 10
Recommend
More recommend