关于ISO 26262的Single-Point Fault/Residual Fault/Latent Fault/Dual-Point Fault的整理
ISO 26262 标准中对故障进行了分类,以便评估其对安全目标的影响并制定相应的安全措施。以下是单点故障 (Single-Point Fault)、剩余故障 (Residual Fault)、潜藏故障 (Latent Fault) 和双点故障 (Dual-Point Fault) 的定义和示例整理:
-
单点故障 (Single-Point Fault - SPF)
- 定义: 指单个硬件元件的随机硬件故障,该故障直接违反了相关的安全目标,并且没有任何安全机制可以防止其违反安全目标。简单来说,就是一个零件坏了,导致系统立即、直接地进入危险状态,且没有任何防护措施能阻止这个结果发生。
- 关键点:
- 单一硬件元件的故障。
- 随机硬件故障(非系统性错误)。
- 直接导致安全目标违反。
- 没有有效的安全机制能检测或防止其导致的违反。
- 对安全性的影响最大(最危险)。
- 示例:
- 安全关键ECU的电源失效: 一个负责电子助力转向的微控制器的唯一电源模块发生短路故障。没有冗余电源或其他安全机制(如电压监控器)来检测或缓解此故障,导致转向助力瞬间完全丧失,车辆失控。
- 安全气囊触发电路的短路: 气囊触发电路中的某个关键晶体管发生短路故障,直接导致气囊在非碰撞情况下误触发(安全目标:气囊应在需要时触发,且仅在该时触发)。没有诊断机制能在触发前检测到这个短路。
-
剩余故障 (Residual Fault - RF)
- 定义: 指单点故障中,那些未能被安全机制覆盖到的部分。安全机制通常不能100%地检测或防止所有故障。剩余故障代表了即使部署了安全机制,仍然存在的、会导致安全目标违反的单点故障风险。
- 关键点:
- 本质上是单点故障的一个子集。
- 特指未被安全机制的诊断覆盖率覆盖的那部分单点故障。
- 衡量安全机制有效性的关键指标(诊断覆盖率 DC < 100% 时必然存在剩余故障)。
- 在安全分析中,剩余故障率用于计算单点故障度量指标。
- 示例:
- 带诊断的微处理器ALU故障: 微处理器的算术逻辑单元可能发生多种故障。假设部署了一个安全机制(如定期自检或比较器),其诊断覆盖率(DC)为90%。这意味着它能检测出90%的ALU故障。剩下的10%可能发生的、会导致危险失效的ALU故障,就是剩余故障。
- 带部分诊断的传感器: 一个位置传感器可能因内部机械卡滞而输出固定值。部署的合理性检查(如检查信号变化率)可能覆盖了70%的卡滞故障模式。剩下的30%可能导致危险失效的卡滞故障就是该故障模式的剩余故障。
-
潜藏故障 (Latent Fault - LF)
- 定义: 指未被驾驶员感知,并且未被任何安全机制检测到的硬件故障。它本身不会立即导致安全目标的违反,但它会潜伏在系统中。只有当另一个独立的故障(称为诱发故障)发生时,这个潜藏故障才会与诱发故障一起导致安全目标违反。
- 关键点:
- 硬件随机故障。
- 发生时未被驾驶员察觉(不影响当前功能)。
- 未被任何安全机制检测到(关键特征)。
- 本身不直接违反安全目标。
- 潜伏在系统中,降低了系统的容错能力。
- 需要与另一个独立故障组合才能导致危险。
- 对安全性的影响在于其未被检测到,使得系统在发生第二个故障时变得脆弱。
- 示例:
- 未监控的安全机制自身故障: 一个用于检测主传感器故障的冗余传感器(作为安全机制)自身发生故障(如偏移),但该冗余传感器没有被其他机制监控(例如,没有“对诊断的诊断”)。驾驶员和系统都不知道它坏了。此时如果主传感器随后也发生故障,系统将无法检测到主传感器的故障(因为冗余传感器已失效),导致危险情况。
- 未诊断的通信通道故障: 在冗余通信路径中,其中一条路径的接收端发生故障(如接收器损坏),导致该路径无法接收数据。如果系统没有部署通道活性监控或端到端校验等机制来检测这个接收器的故障,那么这个故障就是潜藏的。如果随后另一条通信路径也发生故障,系统将完全失去通信能力。
- 未检测到的执行器备份电路开路: 一个执行器(如电子节气门)有主驱动电路和一个备用的、平时不工作的“limp-home”电路。如果备用电路发生开路故障,但系统只在主电路失效时才尝试启用它,并且没有定期自检备用电路,那么这个开路故障就是潜藏的。当主电路真的发生故障需要备用电路时,备用电路无法工作,导致车辆失去动力。
-
双点故障 (Dual-Point Fault - DP)
- 定义: 指需要两个独立的随机硬件故障同时或按特定顺序发生,才会导致安全目标违反的情况。其中,第一个故障必须是潜藏故障(未被检测到),第二个故障则可以是任何导致最终失效的故障(单点故障或另一个双点故障的组成部分)。
- 关键点:
- 涉及两个独立的硬件随机故障。
- 第一个故障必须是潜藏故障。
- 两个故障的组合导致安全目标违反。
- 在安全分析中,双点故障的风险通常被认为低于单点故障(因为两个独立故障同时发生的概率很低),但仍然需要通过安全机制(特别是针对第一个故障的检测)来降低其发生的可能性。
- 示例:
- 示例1 (结合潜藏故障示例):
- 故障1 (潜藏): 冗余传感器失效且未被诊断机制检测到。
- 故障2: 主传感器随后失效。
- 结果: 系统无法检测主传感器失效,导致基于错误传感器数据的危险行为(如错误制动)。
- 示例2:
- 故障1 (潜藏): 用于监控制动压力的安全机制(如比较器电路)自身发生故障且未被诊断(如没有周期性自检该比较器)。
- 故障2: 主制动压力传感器随后发生失效,输出错误的高压力信号。
- 结果: 失效的比较器无法检测到主传感器的错误信号,系统误认为制动压力极高,可能错误触发ABS或其他干预,或导致制动助力异常。
- 示例1 (结合潜藏故障示例):
总结与关键区别:
- 单点故障 (SPF): 最危险。一个故障,直接导致危险,无防护。
- 剩余故障 (RF): SPF的一部分。即使有防护(安全机制),也没防住的那部分SPF风险。
- 潜藏故障 (LF): 隐患。一个故障发生了,但没人(驾驶员和系统)知道它坏了。它本身不直接导致危险,但它让系统变脆弱了。
- 双点故障 (DPF): 连锁反应。需要两个故障:第一个是潜藏故障(埋下隐患),第二个故障(在隐患存在时)发生,共同导致危险。
理解这些概念对于进行ISO 26262要求的硬件架构度量(如单点故障度量、潜藏故障度量)和设计有效的安全机制至关重要。安全机制的主要目标之一就是将单点故障转化为可检测的故障(从而降低其危险程度),并检测潜藏故障(防止它们演变成双点故障的一部分)。