flash reliability in produc4on
play

Flash Reliability in Produc4on: The Importance of - PowerPoint PPT Presentation

Flash Reliability in Produc4on: The Importance of Measurement and Analysis in Improving System Reliability Bianca Schroeder (Currently on sabbatical at Microsoft Research Redmond)


  1. Flash ¡Reliability ¡in ¡Produc4on: ¡ ¡ The ¡Importance ¡of ¡Measurement ¡and ¡ Analysis ¡in ¡Improving ¡System ¡Reliability ¡ Bianca Schroeder ¡ (Currently on sabbatical at Microsoft Research Redmond) University of Toronto

  2. • System ¡reliability ¡ • Why ¡and ¡how ¡do ¡systems ¡fail ¡in ¡the ¡wild? ¡ ¡ ¡

  3. Data ¡from ¡a ¡large ¡number ¡of ¡large-­‑scale ¡produc4on ¡ systems ¡at ¡different ¡organiza4ons: ¡

  4. ¡ ▪ Different ¡hardware ¡failure ¡events ¡ ▪ Hardware ¡replacements ¡ ▪ Correctable ¡and ¡uncorrectable ¡errors ¡in ¡DRAM ¡ ▪ Server ¡outages ¡ ▪ Hard ¡disk ¡drive ¡failures ¡ ▪ Sector ¡errors ¡in ¡hard ¡disk ¡drives ¡ ▪ Data ¡corrup4on ¡in ¡storage ¡systems ¡ ▪ Failures/errors ¡in ¡solid ¡state ¡drives ¡ ▪ Job ¡logs ¡ • Google, ¡OpenCloud ¡(Hadoop ¡cluster ¡at ¡CMU), ¡Yahoo! ¡Hadoop ¡trace ¡ ¡ Observa4ons ¡oTen ¡different ¡from ¡expecta4ons ¡ ¡ ▪ Surprising ¡to ¡operators ¡as ¡well ¡as ¡manufacturers ¡ ▪ 4

  5. ¡ Why ¡flash ¡reliability? ¡ § More ¡and ¡more ¡data ¡is ¡living ¡on ¡flash ¡ ¡ ¡ ¡ ¡ ¡=> ¡ ¡data ¡reliability ¡depends ¡on ¡flash ¡reliability ¡ § Worry ¡about ¡flash ¡wear-­‑out ¡ ¡ For ¡a ¡long ¡4me ¡only ¡lab ¡studies ¡using ¡ accelerated ¡tes4ng ¡ ¡ Recently, ¡some ¡field ¡studies: ¡ ¡ ¡ ▪ Sigmetrics’15 ¡(Facebook) ¡Meza ¡et ¡al. ¡ ▪ FAST’16 ¡(Google) ¡Schroeder ¡et ¡al. ¡ ▪ Systor’17 ¡(MicrosoT) ¡Narayanan ¡et ¡al. ¡ 5

  6. Data on repairs, replacements, bad 6 years of data blocks & bad chips Google Data on workload and 10 drive models fleet variety of error types MLC, SLC, eMLC 4 chip vendors • Custom drives based on commodity chips (but custom firmware and FTL) • Drives are reporting counters many times per day 6

  7. ¡ Percentage ¡of ¡drives ¡replaced ¡annually ¡due ¡to ¡suspected ¡ hardware ¡problems ¡over ¡the ¡first ¡4 ¡years ¡in ¡the ¡field: ¡ Consistent with 6 ¡ [Narayanan’17] ¡Average ¡annual ¡ ¡ Percentage(%) ¡ 5 ¡ replacement ¡ 4 ¡ rates ¡for ¡hard ¡disks ¡ 3 ¡ (2-­‑20%) ¡ 2 ¡ 1 ¡ 0 ¡ MLC-­‑A ¡MLC-­‑B ¡MLC-­‑C ¡MLC-­‑D ¡ SLC-­‑A ¡ SLC-­‑B ¡ SLC-­‑C ¡ SLC-­‑D ¡ § Good ¡news: ¡ ¡ § Only ¡1-­‑2% ¡of ¡drives ¡replaced ¡annually ¡-­‑-­‑ ¡ ¡much ¡lower ¡than ¡hard ¡disks! ¡ § Drives ¡benefiAed ¡from ¡ability ¡to ¡tolerate ¡chip ¡failure ¡ § 0.5-­‑1.5% ¡of ¡drives ¡developed ¡bad ¡chips ¡per ¡year ¡ 7

  8. § Much ¡worse ¡than ¡for ¡hard ¡ disk ¡drives ¡(3.5% ¡experiencing ¡ sector ¡errors)! ¡ § These ¡errors ¡are ¡insideous ¡as ¡ they ¡are ¡latent. ¡ § Bad ¡news: ¡Uncorrectable ¡errors ¡common ¡ § 26-­‑60% ¡of ¡drives ¡see ¡uncorrectable ¡errors ¡in ¡their ¡life ¡(Google) ¡ § 2-­‑6 ¡out ¡of ¡1,000 ¡drive ¡days ¡experience ¡uncorrectable ¡errors ¡ § 0.2-­‑75% ¡of ¡drives ¡at ¡Facebook ¡[Meza ¡et ¡al. ¡2015] ¡ § Rates ¡at ¡MicrosoT ¡10X ¡higher ¡than ¡target ¡rate ¡[Narayanan ¡et ¡al. ¡2016] ¡ 8

  9. ¡ Wear-­‑out ¡(limited ¡program ¡erase ¡cycles) ¡ ¡ Technology ¡(MLC, ¡SLC) ¡ ¡ Lithography ¡ ¡ Age ¡ ¡ Workload ¡ ¡ Temperature ¡ ¡ Other ¡factors? ¡ ¡ What ¡reliability ¡metric ¡to ¡use? ¡ § Raw ¡bit ¡error ¡rate ¡( RBER ) ¡ ▪ Assump4on: ¡as ¡raw ¡bit ¡errors ¡accumulate ¡they ¡turn ¡uncorrectable ¡ § Probability ¡of ¡ uncorrectable ¡errors ¡ ▪ Why ¡not ¡UBER ¡– ¡we ¡will ¡see ¡… ¡ 9

  10. Common ¡expecta4on: ¡ Exponen4al ¡increase ¡of ¡RBER ¡with ¡PE ¡cycles ¡ … ¡or ¡maybe ¡polynomial ¡ ¡… ¡or ¡other ¡super-­‑linear? ¡ -­‑-­‑-­‑ ¡ Exponentia l ¡ ¡ growth ¡ RBER ¡ PE ¡cycles ¡ 10

  11. § Big ¡differences ¡across ¡models ¡(all ¡drives ¡use ¡same ¡ECC ¡& ¡FTL, ¡so ¡ differences ¡are ¡not ¡due ¡to ¡ECC) ¡ § Linear ¡increase ¡(for ¡range ¡of ¡PE ¡cycles ¡in ¡our ¡data) ¡ § No ¡sudden ¡increase ¡after ¡PE ¡cycle ¡limit ¡ 11

  12. Common ¡expecta4on: ¡ Lower ¡error ¡rates ¡under ¡SLC ¡($$$) ¡than ¡MLC ¡ 12

  13. Red ¡lines ¡ ¡ are ¡SLC ¡drives ¡ § RBER ¡is ¡lower ¡for ¡SLC ¡drives ¡than ¡MLC ¡ § Uncorrectable ¡errors ¡are ¡not ¡lower ¡for ¡SLC ¡drives ¡(all ¡drives ¡use ¡ same ¡ECC, ¡FTL, ¡etc. ¡so ¡differences ¡are ¡not ¡due ¡to ¡ECC) ¡ § SLC ¡drives ¡don’t ¡have ¡lower ¡rate ¡of ¡repairs ¡or ¡replacement ¡ 13

  14. Common ¡expecta4on: ¡ Higher ¡error ¡rates ¡for ¡smaller ¡feature ¡size ¡ 14

  15. 43nm ¡versus ¡ 50nm ¡ 34nm ¡versus ¡ 50nm ¡ § Smaller ¡lithography ¡=> ¡higher ¡RBER ¡ § Lithography ¡has ¡less ¡impact ¡on ¡uncorrectable ¡errors ¡ 15

  16. Common ¡expecta4on: ¡ Exponen4al ¡increase ¡in ¡hardware ¡failures ¡with ¡ temperature ¡(Arrhenius ¡equa4on) ¡ -­‑-­‑-­‑ ¡ Exponentia l ¡ ¡ growth ¡ RBER ¡ Temperature ¡ 16

  17. Increase Decrease! Little effect § Uncorrectable ¡errors ¡might ¡increase, ¡decrease ¡or ¡not ¡be ¡affected ¡ by ¡temperature. ¡ § Drive-­‑internal ¡mechanisms ¡protect ¡against ¡temperature, ¡e.g. ¡ through ¡throttling. ¡ § Other ¡effects ¡might ¡dominate ¡ 17

  18. ¡ Lab ¡studies ¡find ¡workload ¡induced ¡error ¡modes ¡ § Read ¡& ¡program ¡disturb ¡errors, ¡incomplete ¡erases ¡ Metrics ¡from ¡lab ¡studies ¡ ¡ Field ¡data: ¡no ¡correla4on ¡between ¡read ¡/ ¡write ¡/ ¡ do ¡not ¡always ¡make ¡ sense ¡for ¡field ¡data. ¡ erase ¡opera4ons ¡versus ¡errors ¡(Google, ¡Facebook) ¡ § Possibly ¡because ¡data ¡at ¡per-­‑drive ¡level ¡too ¡coarse ¡ ¡ Consequence: ¡For ¡field ¡studies ¡UBER ¡is ¡not ¡a ¡ meaningful ¡metric. ¡ ¡ #Uncorrectable ¡bits ¡ UBER= ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Total ¡# ¡bits ¡read ¡ ¡ ¡ ¡ ¡ 18

  19. § Different ¡RBER ¡for ¡same ¡model ¡in ¡different ¡clusters ¡ § Other ¡factors ¡at ¡play ¡… ¡ 19

  20. ¡ The ¡main ¡purpose ¡of ¡RBER ¡is ¡as ¡a ¡metric ¡for ¡ overall ¡drive ¡reliability ¡ ¡ Allows ¡for ¡projec4ons ¡on ¡uncorrectable ¡errors ¡ [Mielke2008] 20

  21. § Drive ¡models ¡with ¡higher ¡RBER ¡don’t ¡have ¡higher ¡frequency ¡of ¡ uncorrectable ¡errors ¡ 21

  22. § Drives ¡(or ¡drive ¡days) ¡with ¡higher ¡RBER ¡don’t ¡have ¡higher ¡frequency ¡ of ¡uncorrectable ¡errors ¡ § RBER ¡is ¡not ¡a ¡good ¡predictor ¡of ¡field ¡reliability ¡ § Uncorrectable ¡errors ¡caused ¡by ¡other ¡mechanisms ¡than ¡corr. ¡errors? ¡ 22

  23. § Prior ¡errors ¡highly ¡predictive ¡of ¡later ¡uncorrectable ¡errors ¡ § Can ¡we ¡predict ¡uncorrectable ¡errors? ¡ ¡ 23

  24. ¡ ¡ Drives ¡report ¡many ¡opera4onal ¡sta4s4cs ¡e.g. ¡ through ¡S.M.A.R.T: ¡ § ¡ Workload, ¡temperature, ¡power-­‑on-­‑hours, ¡prior ¡errors, ¡etc. ¡ ¡ SMART1 SMART2 … ? SMART254 Time ¡ now ¡ Based ¡on ¡data ¡from ¡interval ¡n, ¡will ¡there ¡be ¡ uncorrectable ¡errors ¡in ¡interval ¡n+1? ¡ 24

  25. ¡ ¡ Common ¡machine ¡learning ¡techniques ¡for ¡ classifica4on ¡problems: ¡ § Classifica4on ¡and ¡regression ¡trees ¡ § Random ¡forests ¡ Increasing § Logis4c ¡regression ¡ complexity § Support ¡vector ¡machines ¡ § Neural ¡networks ¡ ¡ How ¡does ¡predic4on ¡accuracy ¡compare? ¡ ¡ How ¡can ¡we ¡use ¡predic4ons ¡in ¡prac4ce? ¡ 25

Recommend


More recommend