当前位置：首页 > web >正文

自动驾驶汽车机器学习安全实用解决方案

web 2025/8/21 7:45:10

摘要

自动驾驶汽车依靠机器学习来解决感知和运动规划方面的挑战性任务。然而，汽车软件安全标准尚未完全发展到能够应对机器学习安全所面临的挑战，例如可解释性、验证以及性能局限性等问题。在本文中，我们回顾并整理了实用的机器学习安全技术，这些技术可作为工程安全的补充，应用于自动驾驶汽车中基于机器学习的软件。我们通过将安全策略与最先进的机器学习技术相匹配来组织这些内容，旨在提高机器学习算法的可靠性和安全性。此外，我们还探讨了自动驾驶汽车中机器学习组件的安全局限性和用户体验方面的问题。

1. 引言

机器学习（ML）的发展是过去十年中最重大的创新之一。如今，机器学习模型在自动驾驶汽车、医疗诊断和机器人技术等不同工业领域得到了广泛应用，用于执行语音识别、目标检测和运动规划等各类任务。在各类机器学习模型中，深度神经网络（DNNs）因其在高维数据中强大的表示学习能力而广为人知且被广泛使用。例如，在自动驾驶领域，各种深度神经网络目标检测和图像分割算法已被用作感知单元，用于处理摄像头数据、Fast RCNN和激光雷达（Lidar）数据（如 VoxelNet）。

安全关键系统的开发依赖于严格的安全方法、设计和分析，以防止失效发生时出现危害情况。在汽车领域，ISO 26262 和 ISO/PAS 21448 是用于解决电气和电子组件安全问题的两个主要安全标准。这些标准规定了系统、硬件和软件开发的方法。具体到软件开发，该过程要确保在需求、架构和单元设计、代码以及验证之间具有可追溯性。对于复杂度较高的自动驾驶软件，需要对其进行迭代式危害分析和风险评估，以正式确定其运行设计域。

另一方面，机器学习模型存在诸多固有的安全缺陷，包括在训练集上的准确性以及在开放世界环境的运行域中的鲁棒性局限。例如，机器学习模型容易受到域偏移、数据损坏和自然扰动的影响。此外，深度神经网络中的预测概率分数并不能真实反映模型的不确定性。而且，从安全角度来看，有研究表明深度神经网络容易受到对抗性攻击 —— 攻击者对输入样本进行微小扰动（这种扰动人眼无法分辨），却能使深度神经网络做出错误判断。由于缺乏针对深度神经网络的验证技术，机器学习模型的验证通常依赖于在不同的大型测试集上采用简单的准确性指标，以覆盖目标运行设计域。尽管准确性指标是衡量算法成功与否的重要标准，但对于安全关键型应用而言，仅用它来衡量性能是远远不够的，因为现实世界中的情况可能与测试集存在差异。

随着人们意识到机器学习模型将越来越多地应用于安全关键系统，我们需要探究这些模型在现有工程安全标准中所暴露的差距。在机器学习安全领域，已经讨论了一些此类差距的例子，包括可解释性、代码可追溯性、形式化验证和设计规范等方面。

在本文中，我们回顾了机器学习安全算法技术所面临的挑战和机遇，以补充现有的自动驾驶汽车软件安全标准。第 2 节简要回顾了汽车行业的两个主要安全标准，并指出了这些标准与机器学习算法之间存在的五个基本差距。第 3 节通过综述机器学习领域关于以下两方面的研究，阐述了实用的算法安全技术：1）错误检测器；2）模型鲁棒性。我们还简要介绍了我们自己针对安全关键型应用所实施的三项方案。第 4 节讨论了当前面临的开放性挑战、未来的研究方向，并对全文进行总结。

2. 背景

工业安全广义上指对行业内所有运营活动和事件进行管理，通过最大限度地减少危害、风险和事故，保护员工和用户。鉴于电气和电子（E/E）组件正常运行的重要性，IEC 61508 是为电气和电子安全相关系统制定的基础功能安全标准，它包含两项基本原则：（a）安全生命周期：一种基于最佳实践的工程流程，用于发现并消除设计错误；（b）失效分析：一种概率方法，用于评估系统失效对安全的影响。IEC 61508 衍生出了多个针对不同行业的特定标准。例如，在汽车行业，为确保安全，工程师必须遵循 ISO 26262 标准，将由电气和电子故障引发的安全风险降至可接受水平。

在本节中，我们首先简要回顾两个主要的汽车安全标准，然后系统地列出机器学习在满足安全要求方面存在的基本局限性。需要注意的是，这两项汽车标准都要求对危害和风险进行细致分析，随后是详细的开发流程，该流程侧重于系统需求、文档化的架构与设计、结构清晰的代码，以及针对单元、集成和系统级测试的全面验证策略。

2.1 ISO 26262 标准

ISO 26262 即汽车电气和电子功能安全标准，将车辆安全定义为不存在因电气和电子组件故障而产生的不合理风险。该标准要求进行危害分析和风险评估（HARA），以确定车辆级别的危害。潜在的危害和风险指导安全工程师制定安全目标，进而依据这些安全目标制定功能安全要求。这些安全要求随后指导系统开发过程，该过程又会分解为硬件开发过程和软件开发过程。图 1 概述了该标准的内容。本文重点关注 ISO 26262 的第 6 部分，该部分定义了软件开发过程的 V 模型。

图 1：ISO 26262 - 6（绿色部分）和 ISO/PAS 21448（蓝色部分）中软件（SW）安全流程的 V 模型对比

图 1 中 V 模型的目的是确保软件架构设计能够充分满足软件安全要求，并且软件验证测试能够对其进行充分测试。同样，软件架构设计需经过验证，软件集成测试要证明对架构实体之间的交互（包括静态和动态方面）已进行测试。在 V 模型的最低层级，单元设计规定了每个单元（在软件架构设计过程中确定）的设计细节，如输入、输出错误处理、单元的行为等，以便进行编码。最后，单元测试确保对单元进行了充分测试，使其满足需求和设计方面的要求，并实现足够的单元结构覆盖率。

ISO 26262 还规定了故障检测和规避方法，以将风险降至可接受水平。然而，当将其应用于自动驾驶时，ISO 26262 存在一些局限性。它无法应对因组件无法理解环境（例如由于性能限制或鲁棒性问题）或系统可预见的误用而引发的故障。

2.2 ISO/PAS 21448 标准

ISO/PAS 21448 即预期功能安全（SOTIF）标准，描述了一个包含设计规范、开发以及验证和确认阶段的迭代开发过程。SOTIF 标准认识到软件（包括机器学习组件）的性能局限性，并要求尽可能减少属于 “不安全 - 未知”（如超出训练分布的样本）和 “不安全 - 已知”（如超出运行设计域的样本）情况的场景 / 输入，使残余错误风险处于可接受水平。

SOTIF 流程在 ISO 26262 的基础上，增加了特定于 SOTIF 的危害分析和风险评估（HARA）以及安全概念。该危害分析包括识别因功能性能不足、情景感知不充分、可合理预见的误用或人机界面缺陷而引发的危害。相比之下，ISO 26262 的危害和风险分析仅局限于由电气和电子失效引发的危害。如果 SOTIF 分析得出的风险高于可接受水平，则需对功能进行修改，以降低 SOTIF 风险。随后，制定验证和确认策略，以证明残余风险低于可接受水平。

2.3 机器学习组件的安全差距

近年来，人们越来越关注机器学习模型的安全局限性。例如，Varshney 等人探讨了机器学习模型安全的定义，并将其与工业界的四种主要工程安全策略（1）固有安全设计、（2）安全储备、（3）安全失效、（4）程序防护措施）进行了比较。在对汽车软件安全方法的综述中，Salay 等人（分析了 ISO - 26262 第 6 部分的方法在机器学习模型安全方面的适用性。他们对软件安全方法在机器学习算法（作为软件单元设计）上的适用性评估表明，约 40% 的软件安全方法不适用于机器学习模型。

机器学习模型的安全和鲁棒性问题也受到了机器学习领域科学家的关注。Amodei 等人提出了五个具体的研究问题，这些问题可能导致现实世界中人工智能系统出现意外且不安全的行为。他们重点关注并将人工智能的安全问题归纳为目标函数的定义和评估。此外，Ortega 等人提出了技术型人工智能安全的三个领域，即规范（设计和涌现方面）、鲁棒性（错误预防和恢复方面）以及保障（监控和执行方面）。

我们按照汽车软件安全标准的术语对这些开放性挑战进行分类，并简要回顾具有代表性的相关研究（见表 1 第一行），以弥补这些安全差距。

表 1：用于提升机器学习算法安全性的实用机器学习技术表

2.3.1 设计规范

在功能安全中，文档化和审查软件规范是至关重要的一步。然而，机器学习模型的设计规范通常不够完善，因为这些模型是通过学习数据中的模式来区分或生成新的未知输入的分布。因此，机器学习算法是通过训练数据（以及正则化约束）来学习目标类别，而非依据正式规范。这种规范缺失可能导致 “设计者目标” 与 “模型实际学到的内容” 不匹配，进而可能使系统出现非预期的功能。机器学习模型通过数据驱动的变量优化进行训练，这使得定义和提出特定的安全约束变得不可能。为此，Seshia 等人对深度神经网络形式化规范的研究现状进行了综述，为深度神经网络属性的形式化和推理奠定了初步基础。解决设计规范问题的另一种实用方法是将机器学习组件分解为更小的算法（承担更小的任务），以分层结构的形式工作。与此相关，Dreossi 等人提出了 VerifAI 工具包，用于基于人工智能的系统的形式化设计和分析。

2.3.2 实现透明度

ISO 26262 要求从需求到设计具有可追溯性。然而，在高维数据上训练的先进机器学习模型缺乏透明度。模型中大量的变量使其难以理解，在设计审查和检查过程中如同 “黑箱”。为了实现可追溯性，研究人员在深度神经网络的可解释性方法方面开展了大量研究，以对模型预测和深度神经网络中间特征层进行实例解释。在自动驾驶汽车应用中，使用 VisualBackProp 技术的研究表明，为控制方向盘而训练的深度神经网络算法，实际上会通过学习车道、道路边缘和停放车辆的模式来执行目标任务。然而，可解释性方法在确保可追溯性方面的完整性尚未得到证实，而且在实际应用中，可解释性技术主要被设计者用于改进网络结构和训练过程，而非支持安全评估。

2.3.3 测试与验证

要满足 ISO 26262 标准，需要对工作成果进行大量验证以开展单元测试。例如，软件安全编码指南要求不存在死代码或不可达代码。根据安全完整性等级的不同，需要实现完整的语句覆盖、分支覆盖或修改条件判定覆盖，以确认单元测试的充分性。对于深度神经网络而言，由于数据的高维性，对其正确性进行形式化验证具有挑战性（经证明是 NP 难问题）。因此，很难实现对运行设计域范围内的完整验证和测试。为此，研究人员提出了新的技术，例如寻找 “未知的未知”以及预测器 - 验证器训练。其他技术，包括神经网络中的神经元覆盖和模糊测试，也涉及这些方面。需要注意的是，对于低维传感器数据的浅层线性模型，其形式化验证不存在深度神经网络验证所面临的那些挑战。

2.3.4 性能与鲁棒性

SOTIF 标准将机器学习模型视为黑箱，并建议采用相关方法来提高模型的性能和鲁棒性。然而，提高模型性能和鲁棒性本身就是一项极具挑战性的任务。在学习问题中，模型训练通常会以在训练集上存在一定错误率（由假阳性和假阴性预测导致）而告终。经验误差是学习函数在其目标分布上的预测错误率。泛化误差指的是模型在训练集和测试集上的经验误差之间的差距。除此之外，运行误差指的是模型在开放世界部署中的错误率，该错误率可能高于测试集错误率。域泛化指的是模型为开放世界任务学习可泛化数据表示的能力。我们将在第 3 节中详细回顾用于提高模型鲁棒性的更多细节和机器学习技术。

2.3.5 运行时监控功能

SOTIF 和 ISO 26262 标准建议将运行时监控功能作为软件错误检测解决方案。传统软件中的监控功能基于一套规则集，用于检测诸如瞬时硬件错误、软件崩溃以及超出运行设计域等情况。然而，设计用于预测机器学习故障（如假阳性和假阴性错误）的监控功能在本质上有所不同。机器学习模型会为输入实例生成预测概率，但研究表明，预测概率并不能保证对故障的预测。事实上，在出现分布偏移和对抗性攻击的情况下，深度神经网络以及许多其他机器学习模型可能会以高置信度生成错误输出。我们将在第 3 节中详细回顾用于机器学习模型的错误检测技术。

3. 机器学习安全技术

我们介绍用于机器学习安全的算法技术，以确保机器学习算法在开放世界任务中能够安全可靠地执行。本节中回顾的技术旨在补充软件安全中的经典工程策略。我们还将机器学习安全技术与相应的工程安全策略相关联（见表 1），以帮助机器学习科学家和安全工程师在自动驾驶汽车安全这一新领域达成共识。我们遵循 Varshney提出的四种实现机器学习安全的策略，将人工智能安全技术与工程策略相匹配。

考虑到在确保人工智能各方面安全方面仍存在研究缺口（见第 2 节），我们认为目前距离实现（1）“固有安全型人工智能” 还有较大差距。因此，我们将重点放在以下两种安全策略的实用机器学习解决方案上：

（2）“安全失效” 指的是在发生失效时，采取策略使车辆保持在道路上的安全状态。该策略可以通过使用监控功能和适度降级方案（如通知驾驶员接管车辆控制权）来减轻失效发生时的危害。我们建议采用运行时错误检测技术，以检测道路上车辆的机器学习算法所产生的错误输出（如错误分类和漏检）。

（3）在机器学习背景下，“安全裕度” 指的是模型在训练集上的性能与在开放世界中的运行性能之间的差异。我们建议采用模型鲁棒性技术来提高机器学习组件的弹性，进而提高其安全裕度。

稍后，在关于未来工作的讨论中，我们还将简要回顾针对自动驾驶汽车非专业终端用户（即驾驶员和乘客）的（4）“程序防护措施” 的重要性。为区分功能安全和网络安全问题，我们将故意利用系统漏洞的外部因素（如对抗性攻击中的样本操纵）视为网络安全问题，而非功能安全问题。

3.1 监控功能

我们的首个实用机器学习安全解决方案利用了一系列机器学习错误分类检测技术，以实现 “安全失效” 行为。例如，当传感器等硬件中的瞬时错误影响巡航控制等软件的功能时，错误检测单元（监控功能）可以检测到该错误，并通过发出适当警告以及让驾驶员接管控制权的方式使系统降级。同样，可以为机器学习组件设计各种运行时监控功能和错误检测器，以预测模型失效并触发相应警告。下面，我们将介绍三种类型的机器学习错误检测器，并回顾它们之间的关联和局限性。需要注意的是，尽管以下三组错误检测器之间存在重叠，但我们会根据它们所针对的错误类型对其进行区分。

3.1.1 不确定性估计

概率学习器中的不确定性是确保系统失效安全性的重要因素。即使是经过良好训练且已校准、对噪声、损坏和扰动具有鲁棒性的预测器，也能从不确定性估计中获益，以便在运行时检测域偏移和分布外样本。量化不确定性有助于从模型对预测的置信度（认知不确定性或模型不确定性）和对未知样本的不确定性（偶然不确定性或数据不确定性）两个方面，解释模型所不了解的信息。

图 2：基于显著性图的卷积网络回归模型失效预测。我们训练了一个学生模型作为监控功能，用于 PilotNet 模型的运行时失效预测

鉴于不确定性方法在安全关键型应用中的重要性，McAllister 等人提出，测量机器学习模型中的不确定性并将其在决策流程中向下传递，是自动驾驶系统安全的关键。然而，量化深度神经网络中的预测不确定性并非易事。通常，深度神经网络分类模型会生成归一化的预测分数，这些分数往往过于自信；而深度神经网络回归模型在其输出中不会体现不确定性。深度学习领域的研究提出了诸如深度集成和蒙特卡洛 dropout（MC - dropout）等解决方案，用于估计预测不确定性。不确定性估计方法已针对多种模型错误类型进行了测试，包括对抗性攻击检测。

尽管不确定性估计方法为深度神经网络故障预测提供了潜在的有效解决方案，但在实际应用中，它们会带来显著的计算成本和延迟，这对于运行时故障预测而言并不理想。例如，为了给 PilotNet 算法设计一个错误检测器，Michelmore 等人提出了一种蒙特卡洛退出不确定性估计的实现方案，该方案需要 128 次随机前向传播才能估计模型的不确定性。因此，在资源有限的环境中，以及出于计算简便等原因，研究人员正在研究其他替代的错误检测解决方案，我们将在接下来的两个小节中对其进行回顾。

3.1.2 分布内错误检测器

分布内样本的错误分类通常是由薄弱的表示学习导致的。近年来，先进的神经网络、正则化技术以及大型训练数据集极大地改进了深度神经网络的表示学习，从而提升了模型的性能和鲁棒性。然而，为了在模型发生失效时保障系统安全，仍然需要运行时预测错误检测器。选择性分类（也称为带拒绝选项的分类）是一种谨慎的技术，它仅对高置信度样本进行预测，在存在疑问时则选择不进行预测。这种用于高置信度预测的方法能够显著提高模型性能，但会以测试覆盖率为代价。Geifman 和 El - Yaniv提出了一种简单且有效的深度神经网络选择性分类实现方案。他们引入了一个拒绝函数，该函数能够基于深度神经网络的 softmax 输出，确保对真实风险的控制。之后，他们又提出了 SelectiveNet，这是一种三分支网络，可在正常域上联合训练分类函数和拒绝函数。与此类似，Guo 等人提出了温度缩放技术，这是一种后处理校准方法，用于调整因过拟合而产生偏差的模型概率估计。在自动驾驶汽车的一项应用中，Hecker 等人在网络中添加并训练了一个失效分支，以学习预测模型失效的发生。

在我们最近发表的论文中，我们提出了一种适用于自动驾驶汽车应用中回归模型的错误检测器。我们设计了一种新方案，即训练一个学生模型（失效预测器），用于在运行时预测教师模型（主模型）的错误。图 2 展示了学生模型如何在验证集上学习教师模型的预测损失，以便在测试集上预测教师模型的失效。我们还利用主模型的显著性图来训练学生模型，以提高失效预测性能。我们基于预测错误以及该系统所带来的驾驶安全性提升，对失效预测器模型进行了评估。

图 3：基于预测置信度的分布外样本检测。我们提出了一种分布外样本检测器，通过自监督步骤训练拒绝类别，以学习异常特征

3.1.3 分布外错误检测器

分布外（OOD）样本或异常值指的是超出正常训练分布的输入。分布外错误是指机器学习模型对分布外样本进行错误分类所产生的错误。在自动驾驶汽车中，分布外样本的例子包括独特、罕见或未知的道路标志、道路标线，或是稀有物体或场景 —— 这些样本要么未被纳入训练集，要么模型在训练过程中未能学会识别（例如由于类别不平衡）。ReLU 系列激活函数存在一个固有问题：当输入与训练分布的偏差越来越大时，它们会产生极高的置信度。不过，研究人员已经提出了多种被称为分布外检测器、新颖性检测器和异常值检测器的技术来检测分布外样本。分布外检测器技术的例子包括修改网络架构以学习预测置信度、采用 “留一法” 分类器集成，以及用于异常值检测的自监督表示学习等方法。另一方面，在分布外检测中，一种快速且低成本的方法是将类别概率用作分布外检测的衡量标准。在这方面，研究人员提出了新的技术来校准深度神经网络的决策边界，以实现稳健的分布外检测。

在我们最近的研究中，我们提出了一种快速且内存高效的分布外错误检测技术，该技术通过在任何深度神经网络判别模型中嵌入并训练拒绝选项，仅需对模型架构进行最小程度的修改。其原理如图 3 所示。我们的核心思路是利用深度神经网络强大的高级特征学习能力，在一个网络中同时学习可泛化的异常特征以及用于正常分类的分布内特征。图 3 展示了我们如何通过两个步骤（使用带标签的分布内训练集进行监督训练，以及使用免费的无标签分布外自然样本进行自监督训练），在神经网络的最后一层训练额外的拒绝函数。我们的评估结果表明，这种通过自监督学习分布外特征的方法，在拒绝其他未见过的分布方面具有良好的泛化能力。

3.2 算法鲁棒性

机器学习安全的第二个实用解决方案是利用鲁棒性技术来提高自动驾驶汽车中机器学习模型的安全裕度。机器学习领域的鲁棒性技术旨在增强算法对未见过的样本、自然损坏和扰动、对抗性样本以及域偏移的抵抗能力。机器学习文献中提出了多种技术，例如数据集增强、噪声注入和多任务学习，用于对深度神经网络进行正则化，以学习可泛化的特征。其他技术，包括迁移学习，已被证明能够通过将预训练模型的通用表示迁移到新领域，从而提高模型的鲁棒性。此外，Zhang 和 LeCun探索了使用无标签的免费数据来正则化模型训练，以提升其鲁棒性。下面，我们将回顾两种与安全相关的主要机器学习鲁棒性技术，适用于开放世界任务。在讨论部分，我们还将简要回顾针对对抗性样本的鲁棒性和检测技术。

3.2.1 对域偏移的鲁棒性

域偏移（也称为分布偏移或数据集偏移）指的是输入数据分布与训练集分布之间的差异。分布偏移会破坏训练数据和测试数据之间的独立同分布（i.i.d）假设，从而导致运行性能低于测试集性能。在这方面，域泛化对于自动驾驶汽车等开放世界应用中的机器学习算法至关重要，因为这些应用中的数据是从不受控制且快速变化的环境中获取的。实现域泛化有多种方法。其中一种方法是对抗性域适应，它利用从目标域获取的大量无标签数据。例如，Zhang 等人采用基于学习的方法，合成前景物体和背景环境，以生成新的训练样本。多任务学习是另一种提高模型鲁棒性的技术，它通过同时学习两个（或多个）任务来实现。例如，Tang 等人提出了一种姿态感知多任务车辆重识别技术，以克服物体的视角依赖性。他们创建并使用了大规模、高度随机化的合成数据集（带有自动标注的车辆属性）进行训练。此外，Lee 等人提出了一种不同的方法，即采用模型集成来捕捉和学习物体的不同姿态和视角，从而提高整体鲁棒性。另外，为了提高目标检测模型对遮挡和变形的鲁棒性，Wang 等人采用对抗性网络来生成难分正样本。

在最近的一项研究中，我们提出了一种新的技术，用于提高无人机（UAV）中模型对域偏移的鲁棒性。我们将目标检测问题视为具有多个细粒度域的跨域目标检测问题。然后，我们训练目标检测模型，以提取目标域中多种 “非理想” 变化（如天气条件、相机角度、光照条件）所共有的不变特征。为实现这一目标，我们以模块化的方式在输入上添加了一个干扰解纠缠特征转换块，并为每个非理想条件添加了一个干扰预测分支，然后在对抗性设置下联合训练最终的网络。我们在 Faster - RCNN 骨干网络上的实现结果表明，与普通基线相比，该技术在提高模型对无人机图像中天气、高度和视角变化的鲁棒性方面表现更优。

3.2.2 对损坏和扰动的鲁棒性

在开放世界环境中，自然数据扰动和损坏是常见现象。对深度神经网络抵御损坏和扰动的鲁棒性进行基准测试的结果表明，机器学习模型在面对简单扰动时会出现意想不到的预测错误。要使模型对自然损坏（如图像数据中因相机镜头问题、雨雪雾天气导致的损坏）和扰动（如传感器瞬时错误、传感器受到的电磁干扰）具有鲁棒性，需要采用相应技术，使模型在干净数据集之外进一步提高鲁棒性。此前，经典的数据集增强技术被用于提高模型对旋转、缩放等简单图像变化的鲁棒性。其他技术，如采用自适应算法选择增强变换和随机块擦除，也被证明对提高鲁棒性和表示学习均有效。最近，风格迁移等先进的增强技术已被证明能够提高模型对纹理偏差的鲁棒性。另一类研究则提出通过使用更大规模的网络，借助多尺度和冗余特征学习来提高深度神经网络的鲁棒性。

另一方面，对抗性扰动是由攻击者故意制造的微小但最坏情况下的扰动，这些被扰动的样本会导致模型以高置信度对其进行错误分类。我们将自然扰动引发的安全危害与对抗性扰动引发的安全危害区分开来，因为后者是故意利用系统漏洞来造成危害的。在关于未来工作的讨论中，我们将简要提及与对抗性扰动相关的安全问题。

4. 结论与未来工作

在这项研究中，我们回顾并分类了经典软件安全方法以及机器学习算法中的基本局限性。开展这项工作的目的是结合工程安全策略和最先进的机器学习技术，提高自动驾驶系统中机器学习组件的可靠性和安全性。在这方面，保障自动驾驶汽车的安全需要来自多个领域的跨学科努力，包括人机交互、机器学习、软件工程和硬件工程。我们简要回顾并讨论了融入机器学习的系统在功能安全和网络安全方面的其他维度，这些维度值得研究界关注。

4.1 对抗性攻击的安全风险

对抗性样本是指经过攻击者精心扰动（扰动幅度很小）的干净图像，其视觉上与原始干净图像几乎无差别，但会导致机器学习模型对其进行错误分类。尽管对抗性攻击备受关注，但它通常不被视为主要的安全问题，而更多被看作是一种安全局限性。针对对抗性攻击的两种主要防御方法是检测和鲁棒性提升。例如，Smith 和 Gal提出了一种利用蒙特卡洛退出不确定性估计技术检测对抗性样本的案例。此外，为了提高模型对对抗性扰动的鲁棒性和抵抗能力，Papernot 等人提出了一种基于模型蒸馏的有效防御方法。然而，对抗性样本问题尚未得到解决，因为攻击者总会针对当前的防御技术设计更强的攻击，以破坏机器学习组件的安全性。

4.2 机器学习安全的程序防护措施

除了系统的功能安全之外，程序防护措施还能帮助操作员和产品终端用户（如自动驾驶汽车中的驾驶员）避免因缺乏指导和认知不足而对系统造成无意的误用。用户体验（UX）设计和算法透明度是提高自动驾驶汽车运行安全性的两种方法。在这种情况下，终端用户可以从可解释的用户体验设计中获益，这种设计能提供有关模型推理过程和预测不确定性的有用且易于理解的信息。例如，用户体验设计可以利用车辆检测和路径规划的模型不确定性实时可视化，帮助驾驶员更好地了解车辆在道路上的安全状况。

在未来的工作中，我们计划回顾自动驾驶汽车应用中最新的程序防护措施设计和相关研究，包括校准人类对人机智能系统信任度的关键技术和因素。

查看全文

http://www.xdnf.cn/news/18394.html