software based fault tolerance mission im possible
play

Software-based Fault Tolerance Mission (Im)possible? Peter Ulbrich - PowerPoint PPT Presentation

Software-based Fault Tolerance Mission (Im)possible? Peter Ulbrich The 29th CREST Open Workshop on Software Redundancy November 18, 2013 System Software Group


  1. ��������������������������� Software-based Fault Tolerance – 
 Mission (Im)possible? Peter Ulbrich The 29th CREST Open Workshop on Software Redundancy November 18, 2013 System Software Group http://www4.cs.fau.de

  2. � ��������������������� �������� � �� ��� ���� � � ������������� � � �� �� Soft Errors – A Growing Problem � � � � � � � � � � � � � ■ Soft-Errors (Transient hardware faults) ! ■ Induced by e.g., radiation, glitches, insufficient signal integrity ■ Affecting microcontroller logic ! ! Peter Ulbrich – ulbrich@cs.fau.de 2

  3. �� � �� �� �������� ��������������������� � �� ��� ���� � � �� � � �� �� ������������� �� �� � �� �� �� �� � �������� � �� ��� ���� � � � � �� � �� ��������������������� ������������� ������������� ������������� ������������������ ������������� ������������������������ � ��� �� � �� � Soft Errors – A Growing Problem � � � � � � � � � � � � � � � � � � � � � � � � � � ■ Soft-Errors (Transient hardware faults) ! ■ Induced by e.g., radiation, glitches, insufficient signal integrity ■ Affecting microcontroller logic ! ! Peter Ulbrich – ulbrich@cs.fau.de 2

  4. ��������������������� �� ������������������ ������������� ���� ������� ���� ������� �� �� � � ������������� �� �� �� �� ������������������������ � ��� �� � �� � �� �� ������������� �������� �� ������������� ���� ������ ���� ������ ���� ������� ���� ������� ���� �� ������� �� � � � � � ���� ��� �� � �� �� ���� �� ������������ � ������������������������ � ��� �� ������������� ������������������ ������������� ������������� ������������� ��������������������� �� �� � � � � � ���� ��� �� � �������� ���� � �� � �� � �� � �� �� ������������� �� �� � � �� � � ���� ��� �� � ��������������������� �������� �� �� ������� Soft Errors – A Growing Problem � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � [3] ■ Soft-Errors (Transient hardware faults) ! ■ Induced by e.g., radiation, glitches, insufficient signal integrity ■ Affecting microcontroller logic ■ Future hardware designs: more performance performance and parallelism parallelism ! → On the price of being less and less r On the price of being less and less reliable eliable ! Peter Ulbrich – ulbrich@cs.fau.de 2

  5. ��� �� ������������������ ������������� ���� ������� ���� ������� �� �� � � ������������� �� �� �� �� ������������������������ � ��� �� � �� � �� �� ������������� �������� �� ������������� ���� ������ ���� ������ ���� ������� ���� ������� ���� �� ��������������������� �� � � � � � ���� ������� �� � �� �� ���� �� ������������ � ������������������������ � ��� �� ������������� ������������������ ������������� ������������� ������������� ��������������������� �� �� � � � � � ���� ��� �� � �������� ���� � �� � �� � �� � �� �� ������������� �� �� � � �� � � ���� ��� �� � ��������������������� �������� �� �� ������� Soft Errors – A Growing Problem Toyota Acceleration Case � � � ■ Electronic throttle control system (2005 Camry) � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � “Toyota claimed the 2005 Camry's main CPU had error detecting and correcting RAM. It didn't. ” 2 ■ Unintended acceleration potentially involving 261 deaths 1 [3] ■ Experts identified soft errors as possible cause 1 ■ Soft-Errors (Transient hardware faults) ! ■ 1 US News, Mar 17, 2010 2 Investigation Report, EDN Network, Oct 28, 2013 Induced by e.g., radiation, glitches, insufficient signal integrity ■ Affecting microcontroller logic ■ Future hardware designs: more performance performance and parallelism parallelism ! → On the price of being less and less r On the price of being less and less reliable eliable ! Peter Ulbrich – ulbrich@cs.fau.de 2

  6. Software-Based Fault Tolerance Safety-Critical System ! ↯ ✗ Replica(1( Replica(1( Majority( Sensors( Interface( Replica(2( Actuators( Voter( Replica(3( ( Isola&on(domain( Sphere(of(redundancy((SOR)( ( ■ Software-based redundancy ! ■ Triple Modular Redundancy riple Modular Redundancy (e.g., recommended by ISO 26262) ! Selective Selective and adaptive adaptive ! Resour Resource efficient ce efficient ! Peter Ulbrich – ulbrich@cs.fau.de 3

  7. Software-Based Fault Tolerance Safety-Critical System ! ↯ ↯ Replica(1( Majority( Majority( Sensors( Interface( Interface( Replica(2( Actuators( Voter( Voter( Replica(3( ( Isola&on(domain( Sphere(of(redundancy((SOR)( ( ■ Software-based redundancy ! ■ Triple Modular Redundancy riple Modular Redundancy (e.g., recommended by ISO 26262) ! Selective Selective and adaptive adaptive ! Resour Resource efficient ce efficient ■ Single points of failur Single points of failure ! ■ Interface and Majority V Interface Majority Voter oter ■ Allowing for Silent Data Corruptions Silent Data Corruptions (SDC) (SDC) → Replication is impossible! Replication is impossible! Peter Ulbrich – ulbrich@cs.fau.de 3

  8. ��� � �� ���������������� ���� ���������� �� ��� �� ���������������������� ��� � ���������������������� ��� � � Threats to Applicability – Mission failed? ■ Triple modular redundancy reliability ! R TMR = R Voter ⋅ R 2 − of − 3 ! ! Peter Ulbrich – ulbrich@cs.fau.de 4

  9. � ��� � � ��� ���������������������� ��� ���������������������� �� ���������� �� ��� ���������������� ���� �� ���� ����� � � ����� � Threats to Applicability – Mission failed? � ��� �� ��� � ���� � � �� ��� � ��� �� ■ Triple modular redundancy reliability ! R TMR = R Voter ⋅ R 2 − of − 3 ■ Voting on unreliable hardware? ! ■ Very small � residual err esidual error pr or probability? obability? ■ Risk analysis � inherently complex complex (no random error distribution! [4]) ! Peter Ulbrich – ulbrich@cs.fau.de 4

Recommend


More recommend