rollback free value predic2on with approximate loads
play

Rollback-Free Value Predic2on with Approximate Loads - PowerPoint PPT Presentation

Rollback-Free Value Predic2on with Approximate Loads Bradley Thwaites Gennady Pekhimenko Amir Yazdanbakhsh Jongse Park Girish Mururu Hadi Esmaeilzadeh


  1. Rollback-­‑Free ¡Value ¡Predic2on ¡ with ¡Approximate ¡Loads ¡ Bradley ¡Thwaites ¡ Gennady ¡Pekhimenko ¡ Amir ¡Yazdanbakhsh ¡ Jongse ¡Park ¡ ¡Girish ¡Mururu ¡ Hadi ¡Esmaeilzadeh ¡ ¡ Onur ¡Mutlu ¡ Todd ¡Mowry ¡ Georgia ¡Ins2tute ¡of ¡Technology ¡ Carnegie ¡Mellon ¡University ¡

  2. Mi2ga2ng ¡Memory ¡Wall ¡with ¡ Approxima2on ¡ Rollback-­‑Free ¡Value ¡Predic2on ¡ – Microarchitecturally ¡triggered ¡approxima2on ¡ – Predict ¡the ¡value ¡of ¡an ¡approximate ¡ load ¡when ¡it ¡ misses ¡in ¡the ¡cache ¡ – Do ¡not ¡ check ¡for ¡mispredic2ons ¡ – Do ¡not ¡ rollback ¡from ¡mispredic2ons ¡ Mi2gate ¡ long ¡latency ¡memory ¡ accesses ¡

  3. Rollback ¡Free ¡Value ¡Predic2on ¡ Value& Predictor Core Quickly Predict Data ) Main Data Request Memory Misses in D$ D$ I$ LLC Avoid Long-Latency Memory Access

  4. Design ¡Principles ¡ ¡ Maximize ¡opportuni2es ¡for ¡performance ¡ and ¡energy ¡ benefits ¡ ¡ Minimize ¡the ¡adverse ¡effects ¡of ¡ approxima2on ¡on ¡ quality ¡degrada2on ¡ ¡

  5. Design ¡Challenges ¡and ¡Solu2ons ¡ Target ¡Performance-­‑Cri2cal ¡Safe ¡ Loads ¡ Last/Value Stride/1 Stride/2 Hash(PC) – Profile-­‑directed ¡compila2on ¡ – Usually, ¡< ¡32 ¡loads ¡cause ¡80% ¡of ¡ cache ¡misses ¡ ¡ U2lize ¡Fast-­‑Learning ¡Predictors ¡ – Two-­‑delta ¡stride ¡predictor ¡ – Predic2on: ¡table ¡lookup ¡plus ¡an ¡ addi2on ¡ + ¡ Integrate ¡RFVP ¡with ¡exis2ng ¡ Predicted/ architecture ¡ Value ¡

  6. Experimental ¡Results ¡with ¡a ¡Modern ¡ OoO ¡Processor ¡ 100% 1.4 Stride TwoDelta 1.3 75% 1.2 Speedup Error 50% 1.1 1 25% 2)MB)+)4)wide)issue 2)MB)+)2)wide)issue 0.9 512)KB))+)4)wide)issue 512)KB)+)2)wide)issue 0.8 0% 171.swim 410.bwaves 436.cactusADM 450.soplex 459.gemsFDTD geomean 191.fma3d 429.mcf 171.swim 191.fma3d 410.bwaves 429.mcf 436.cactusADM 450.soplex 459.gemsFDTD average Performance ¡Improvement: ¡ Quality ¡Loss: ¡ 8% ¡ 19% ¡ 0.8% ¡ 1.8% ¡ Average ¡ Average ¡ Maximum ¡ Maximum ¡

  7. Ongoing ¡Work ¡ Mi2gate ¡both ¡Memory ¡Wall ¡and ¡Bandwidth ¡Wall ¡ ¡ • Extend ¡rollback-­‑free ¡value ¡predic2on ¡to ¡GPUs ¡ • Drop ¡a ¡frac2on ¡of ¡the ¡missed ¡requests ¡ • Preliminary ¡results: ¡Up ¡to ¡2x ¡improvement ¡in ¡ energy ¡and ¡performance ¡with ¡only ¡10% ¡ quality ¡degrada2on ¡

Recommend


More recommend