http scalability llnl gov
play

http://scalability.llnl.gov/ This work was performed under the - PowerPoint PPT Presentation

Martin Schulz, Lawrence Livermore National Laboratory Joint work with: K. Isaacs, P.-T. Bremer, I. Jusufi, T. Gamblin, A. Bhatele, B. Hamann LLNL &


  1. Martin ¡Schulz, ¡ Lawrence ¡Livermore ¡National ¡Laboratory ¡ Joint ¡work ¡with: ¡K. ¡Isaacs, ¡ P.-­‑T. ¡Bremer, ¡I. ¡Jusufi, ¡T. ¡Gamblin, ¡A. ¡Bhatele, ¡B. ¡Hamann ¡ LLNL ¡& ¡UC ¡Davis ¡ ¡ ¡ ¡ Petatools ¡Workshop ¡ w ¡August ¡4 th , ¡2014 ¡ LLNL-­‑PRES-­‑658255 ¡ http://scalability.llnl.gov/ ¡ This work was performed under the auspices of the U.S. Department of Energy by Lawrence Livermore National LLNL-PRES-xxxxxx Laboratory under Contract DE-AC52-07NA27344.

  2. § Communication ¡traces ¡ • Highly ¡useful ¡for ¡detailed ¡analysis ¡ • Capture ¡all ¡details ¡ § Timeline ¡views ¡of ¡traces ¡ • Standard ¡way ¡to ¡show ¡traces ¡ • But: ¡hard ¡to ¡interpret ¡ • Also: ¡hard ¡to ¡scale ¡ — In ¡number ¡of ¡processes ¡ (each ¡process ¡is ¡one ¡timeline) ¡ — In ¡time ¡ (how ¡to ¡find ¡interesting ¡parts) ¡ § Goal: ¡new ¡ways ¡to ¡visualize ¡communication ¡traces ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  3. § Advantage: ¡expose ¡logical ¡communications ¡structure ¡ § Challenges ¡ • Detecting ¡logical ¡structure ¡ • Integrating ¡wall ¡clock ¡time ¡information ¡ • Displaying ¡information ¡in ¡a ¡scalable ¡way ¡ • Creating ¡an ¡interactive ¡tool ¡with ¡linked ¡views ¡ This ¡lead ¡us ¡to ¡Ravel, ¡a ¡new ¡interactive ¡trace ¡visualizer ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  4. § Goal ¡ • Identify ¡operations ¡that ¡logically ¡belong ¡together ¡(e.g., ¡a ¡stencil) ¡ • Capture ¡the ¡developer’s ¡intention ¡and ¡organization ¡ § Partitioning ¡based ¡on ¡“Happens-­‑before ¡Relationships” ¡ • Grow ¡single ¡events ¡into ¡connected ¡groups ¡ • Merge ¡groups ¡with ¡cyclic ¡dependencies ¡ § Further ¡heuristics ¡ • Join ¡events ¡connected ¡ by ¡MPI_Waitall ¡ • Ensure ¡job-­‑wide ¡ communication ¡per ¡ phase/component ¡ Partition Ordering Merged Partition Partition Ordering Message Partition Ordering Merged Partitions § Detects ¡most ¡cases ¡ Related Communication Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  5. § Collect ¡VampirTrace ¡data ¡(OTF) ¡ § Create ¡Reduced ¡Happens-­‑Before ¡ Trace ¡based ¡on ¡Send ¡Events ¡ § Insert ¡partitions ¡based ¡on ¡ component ¡graph ¡distance ¡ § Align ¡components ¡ 0 0 § Split ¡Send ¡and ¡Receive ¡ 1 1 2 2 3 3 4 § Add ¡Blocks ¡for ¡Computation ¡Time ¡ 4 5 5 6 6 7 7 Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  6. § Example: ¡MG ¡on ¡16 ¡processors ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  7. § Logical ¡time ¡exposes ¡the ¡structure ¡of ¡communication ¡ • Alignment ¡of ¡logical ¡grouped ¡events ¡ • “Clean” ¡views ¡ § Problem: ¡time ¡information ¡lost ¡ • Critical ¡for ¡performance ¡optimization ¡ • Need ¡to ¡concentrate ¡on ¡events ¡that ¡cause ¡or ¡propagate ¡delays ¡ § New ¡lateness ¡metric ¡ • Compare ¡exit ¡times ¡within ¡aligned ¡components ¡ • Difference ¡to ¡first ¡process ¡exiting ¡the ¡component ¡ • Shows ¡delays ¡(or ¡lateness) ¡relative ¡to ¡communication ¡structure ¡ § Additional ¡metric: ¡Differential ¡lateness ¡ • Identify ¡causes ¡for ¡lateness ¡by ¡showing ¡where ¡lateness ¡increases ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  8. Lateness in Event Lateness in Message Event ¡causing ¡lateness ¡ Message ¡causing ¡lateness ¡ Lateness Propagated Along Process Lateness Propagated Along Message Event ¡propagating ¡lateness ¡ Message ¡propagating ¡lateness ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  9. Lateness § Ring ¡based ¡MPI_Allreduce ¡using ¡libNBC ¡on ¡64 ¡processes ¡ • Logical ¡time ¡algorithm ¡detected ¡alignment ¡of ¡communication ¡steps ¡ • Lateness ¡spreads ¡from ¡process ¡with ¡rank ¡45 ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  10. Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  11. § Challenge: ¡Scalability ¡ • The ¡logical ¡timeline ¡view ¡still ¡uses ¡1 ¡timeline ¡per ¡process ¡ • Logical ¡timeline ¡provides ¡good ¡base ¡for ¡clustering ¡ § Use ¡lateness ¡as ¡distance ¡metric ¡ • Cluster ¡between ¡aligned ¡events ¡ • Lateness ¡is ¡assumed ¡to ¡propagate ¡where ¡events ¡are ¡missing ¡ Logical Time Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  12. Logical ¡Time ¡View ¡ With ¡Lateness ¡Metric ¡ Cluster ¡View ¡ Original ¡View ¡Based ¡on ¡ Wall-­‑Clock ¡Time ¡ Global ¡Timelime ¡with ¡ ¡ Lateness ¡Metric ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  13. Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  14. Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  15. Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  16. Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  17. § Planned ¡improvements ¡ • Adaptation ¡to ¡newer ¡(OTF2) ¡trace ¡generators ¡ — Working ¡on ¡Score-­‑P ¡support ¡ • Release ¡of ¡Ravel ¡coming ¡soon ¡ § Inclusion ¡of ¡higher ¡level ¡MPI ¡information ¡ • Communicators ¡/ ¡subgroup ¡communication ¡ • Improve ¡automatic ¡partitioning ¡ • Support ¡for ¡process ¡re-­‑ordering ¡ § Adaptation ¡to ¡other ¡types ¡of ¡traces ¡ • Arbitrary ¡communication ¡traces, ¡e.g., ¡from ¡Charm++ ¡ • Task ¡dependency ¡traces ¡ Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

  18. Ravel: ¡Ordering ¡Traces ¡Logically ¡to ¡Identify ¡Lateness ¡in ¡Parallel ¡Programs ¡ ¡ Martin ¡Schulz ¡ Lawrence Livermore National Laboratory

Recommend


More recommend