Would Error Correction Provide a Benefit in Classical Computers? 5 Nov 2013 INTRIQ Thomas Szkopek Department of Electrical and Computer Engineering
Acknowledgements Vwani Roychowdhury Eli Yablonovitch, Dimitri Antoniadis John Damoulakis, UCLA (provocateur) MIT USC/ISI UC Berkeley
system reliability Gate ¡ Source ¡ Drain ¡ Lawrence ¡Livermore ¡Na4onal ¡Laboratory ¡ IBM BlueGene/L, 2006 ENIAC, 1946 131,072 processors 17,468 vacuum tubes mean time between faults: mean time between faults: ~6 days ~2 days 3 ¡
system reliability “[with] current state ‐ of ‐ the ‐ art fault ‐ tolerance strategy, checkpoint/restart, for a 1 PFlop/s system… a computational job that could complete in 100 hours in a failure ‐ free environment will actually take 251 hours” “While several [high-end computing] vendors are looking to address reliability at the hardware level, the costs are proving to be staggeringly high in both money and power.” let’s look at the hardware level! DeBardeleben et al., High ‐ End Computing Resilience: Analysis of Issues Facing the HEC Community and Path ‐ Forward for Research and Development , Los Alamos National Laboratory 2010, http://institute.lanl.gov/resilience/docs/ 4 ¡
error correction: memory and communications errors reliable reliable decoding encoding & error identity correction channel transmitter receiver (memory) (write) (read) • reliable encoding, decoding and error correcting hardware • efficient, complex codes are used 5 ¡
error correction: computation errors reliable reliable decoding encoding & error correction encoded logic logic unit encoder decoder • reliable encoding, decoding and error correcting hardware • logic performed in code space (eg. Reed-Muller codes) D. Pradhan & S. Reddy, IEEE Trans. Comp. 21 , 1331 (1972). • however, it is likely that all hardware is equally (un)reliable 6 ¡
error correction: computation errors error error correction correction logic logic • errors occur in all hardware • never decode bits or they will be corrupted, in other words: all operations must be perfomed in protected code space! 7 ¡
protecting 1 bit : repetition error correction by majority vote repetition code 0 0 0 0 0 “0” = 0 0 0 0 0 0 0 0 1 0 “1” = 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 0 1 1 single bit flip: p 0 0 0 0 0 0 1 0 0 1 logical bit flip: P = 20 p 3 + … error ¡ rate ¡ P ¡ = ¡20 p 3 ¡ p ¡ J. von Neumann, Lectures on Probabilistic Logics p ¡ and the Synthesis of Reliable Organisms from Unreliable Components, 1952. 8 ¡
protecting 1 bit If majority gates are error-free , MAJ = majority vote MAJ ¡ then the majority voting process is error free if <50% of input bits MAJ ¡ are in error. MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ MAJ MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ 9 ¡
protecting 1 bit If majority gates are error-free , MAJ = majority vote MAJ ¡ then the majority voting process is error free if <50% of input bits MAJ ¡ are in error. MAJ ¡ MAJ ¡ If majority gates are error- prone , then the majority voting MAJ ¡ process is error-prone. MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ MAJ ¡ error with probability p MAJ ¡ MAJ ¡ President Harry S. Truman 10 ¡
fault tolerant architecture Triplicate repetition code and fault-tolerant majority concatenation majority gate M error correction copy the majority vote bits × 3 × 3 PO Boykin, VP Roychowdhury, Proc. Int. Conf. Dep. Sys. Net. 2005. 11 ¡
fault tolerant architecture p error per majority gate: 2 L ε ~ 1 " % error with L concatenations: P ≤ ε p $ ' 108 ε # & N = 9 L (with'ancillae) bits with L concatenations: N log2/log9 ! $ P ≤ ε p error rate versus bits: # & ε " % PO Boykin, VP Roychowdhury, Proc. Int. Conf. Dep. Sys. Net. 2005. 12 ¡
protecting more than 1 bit? error error correction correction logic logic Can universal logic operations be performed in code space other than repetition codes? (difficulty lies in the parity bits) Unknown. Best result is with an evolving RM code space. Is the overhead prohibitive? Unknown. 13 ¡
what about device physics? complementary transistor inverter: Assume sub-threshold conductance / thermionic + V /2 emission through channels: ( ) ! G p = G 0 exp + eV GS / k B T G p N in N out ( ) ! G n = G 0 exp − eV GS / k B T G n C C - V /2 V GS ¡ N in ¡ ¡ ¡= ¡ input charge source N out ¡= ¡ output charge N ¡= ¡ CV / e ¡= ¡ maximum charge drain G n ¡= ¡ n-channel conductance G p ¡= ¡ p-channel conductance 14 ¡
complementary logic +V/2 b G p V GS ¡ N in N out source ¡ G n drain ¡ C C CNT inverter -V/2 Ph. Avouris, et al., Physica B 323 (2002) 6–14 Si nanowire inverter ZnO nanowire inverter D. Wang, et al., Small 2 (2006) 1153-8 S. Roy, et al., Nanotech 21 (2010) 245306 15 ¡
complementary logic + V /2 information theoretic perspective: single charge -- physical bit G p total charge -- logical bit N out N in N out signal restoration -- majority vote + N /2 G n C C - V /2 N in + N /2 - N /2 + V /2 metal-insulator transition - N /2 G p in transistor channels: N in N out ⋅ G p − G n N out = N G n 2 G p + G n C C # & N in = − N tanh % ( % ( 2 k B TC / e 2 - V /2 $ ' 16 ¡
complementary logic universal NAND gate: 17 ¡
complementary logic + V /2 N out + N /2 G p NM ¡ δq 2 = k B TC ¡ δq 2 = k B TC ¡+ ¡ T ( δq 2 ) ¡ ¡ N in N out G n N in C C + N /2 - N /2 NM ¡ - V /2 - N /2 δq/e ¡<< ¡ NM ¡ Local noise dominates when: ! p ( N in ) δq ¡ Growth of charge fluctuations / error is suppressed by transistor error correction. N in ¡ 18 ¡
complementary logic 1/2 ! $ Probability of P 1 2 N out ε N # & logical error: 2 # ( ) & π N ln 1 + N /2 " % ε NM ¡ ε = exp( − eV /8 k B T ) N in Error scales as a ideal majority vote of N + N /2 - N /2 electrons with an error p per electron: NM ¡ 1/2 ! $ ! $ 2 N & p N /2 N /2 ( ) P = 4 p # & # & - N /2 # ! p ( N in ) N /2 π N " % " % δq 2 = k B TC ¡ p = ε 2 logical ¡error ¡ 4 N in ¡ 19 ¡
reliability and redundancy error rate logical error rate per particle for N particles 1/2 ! 2 $ ideal majority N /2 00010000 p P ( 4 p ) # & vote 10111111 π N suppression in N " % exponential 1/2 ! $ 1 transistor logic N 2 ( ) p ~ exp # & P ( 4 p ) − eV circuit k B T ( ) # π N ln & 1 " % 4 p J ¡ 1/2 ! $ 2 N 2 2 ( ) ( ) P 4 p p ~ ballistic gates δ r # & π N r " % suppression in N sub-exponential N log2/log9 ! $ p 1-bit architecture p P ε T # & # & ε T " % 20 ¡ T. Szkopek et al PRL 106 , 176801 (2011).
classical computing with spin magnetic moments V ~ µ 2 interaction: J 1 ¡ J 2 ¡ r 3 ! δ V ~ V ⋅ δ r interaction error: r ! rotation for φ = V ⋅ t = π distinguishable states: ! δr ¡ r ¡ δφ ~ π ⋅ δ r spin placement accurate to within δ r rotation error: r ! probability of erroneous spin flip! 21 ¡
classical computing with spin spin 1/2 Probability of error: p ~ 1 ✗ ¡ δφ 2 δφ ~ π ⋅ δ r 4 r Probability of error: spin j = N × 1/2 1/2 ! 2 $ δφ N p ~ ✗ ¡ # & π N " % 22 ¡
classical computing with spin N × spin 1/2 ✗ ¡ ✗ ¡ ✗ ¡ ✗ ¡ ✗ ¡ p ~ 1 δφ 2 Probability of single error: 4 1/2 ! $ ! $ 2 N & p N /2 ~ δφ N P = Majority vote on N spins: # & # & # N /2 π N " % " % 23 ¡
reliability and redundancy error rate logical error rate per particle for N particles 1/2 ! 2 $ ideal majority N /2 00010000 p P ( 4 p ) # & vote 10111111 π N suppression in N " % exponential 1/2 ! $ 1 transistor logic N 2 ( ) p ~ exp # & P ( 4 p ) − eV circuit k B T ( ) # π N ln & 1 " % 4 p J ¡ 1/2 ! $ 2 N 2 2 ( ) ( ) P 4 p p ~ ballistic gates δ r # & π N r " % suppression in N sub-exponential N log2/log9 ! $ p 1-bit architecture p P ε T # & # & ε T " % 24 ¡ T. Szkopek et al PRL 106 , 176801 (2011).
CMOS Gate ¡ Source ¡ Drain ¡ Intel 45nm, strained Si 45nm ¡node ¡ 21nm ¡node ¡ 11.9nm ¡node ¡ (2010) ¡ (2015) ¡ (2020) ¡ L , ¡gate ¡length ¡[nm] ¡ 27 ¡ 17 ¡ 10.7 ¡ C g , ¡gate ¡capacitance ¡[aF] ¡ 19.7 ¡ 10.0 ¡ 4.0 ¡ V , ¡opera4ng ¡voltage ¡[V] ¡ 0.97 ¡ 0.81 ¡ 0.68 ¡ N , ¡electrons ¡per ¡inverter ¡gate ¡ 240 ¡ 100 ¡ 34 ¡ N , ¡electrons ¡per ¡NAND ¡gate ¡ 480 ¡ 200 ¡ 68 ¡ M , ¡transistors/chip ¡ 2.2×10 9 ¡ 8.8×10 9 ¡ 35×10 9 ¡ f , ¡clock ¡freq. ¡[GHz] ¡ 5.9 ¡ 8.5 ¡ 12.4 ¡ P , ¡error ¡probability ¡at ¡1000 ¡FITs ¡ 2×10 −29 ¡ 4×10 −30 ¡ 4×10 −31 ¡ P , ¡error ¡probability ¡at ¡1 ¡fault/year ¡ 2×10 −27 ¡ 4×10 −28 ¡ 7×10 −29 ¡ International Technology Roadmap for Semiconductors, 2009 edition. 25 ¡
Recommend
More recommend