当前位置：首页 > news >正文

【连载19】基础智能体的进展与挑战综述-对智能体大脑的威胁

news 2025/6/2 7:29:03

18. 智能体内在安全性：对AI大脑的威胁

智能体的内在安全性涉及到智能体内部架构和功能的漏洞。智能体本质上由多个组件组成：一个中央“大脑”（LLM），以及用于感知和行动的辅助模块[66]。虽然这种模块化使得智能体能够进行复杂的推理和自主决策，但也扩大了潜在的攻击面，暴露了智能体内部的各种漏洞，供对手利用[1130]。

对智能体大脑——特别是LLM——的威胁尤为令人担忧，因为这些威胁可能直接影响智能体的决策、推理和规划能力。这些漏洞可能来源于模型设计中的缺陷、输入的误解，甚至是训练过程中产生的弱点。有效的缓解策略对于确保这些智能体能够安全可靠地部署至关重要。

图18.1：智能体内在安全性：LLM大脑的威胁

18.1 LLM的安全漏洞

LLM作为智能体的核心决策组件，极易受到一系列安全威胁。它在推理和行动选择中的核心作用使其成为对手的一个有吸引力的目标。在AI智能体的背景下，LLM本身固有的漏洞往往会被放大，因为这些模型需要在动态的、真实的环境中运行，在这些环境中对手可以利用其弱点[1131, 1132]。

18.1.1 越狱攻击

越狱攻击绕过了嵌入在AI智能体中的安全防护措施，迫使其决策过程变得有害、不道德或带有偏见[1233]。这些攻击利用了LLM的有用性与其安全约束之间的固有张力[1134]。

形式化。为了正式表征越狱攻击带来的风险，我们分析了自回归LLM输出的概率分布。

对于自回归LLM，给定输入序列，生成输出序列的概率可以表示为：

其中，m表示生成序列的总长度。越狱攻击通常涉及对输入序列引入微妙的扰动，记作，这些扰动会误导模型生成偏离预期行为的输出。

越狱攻击的影响通过其对对齐奖励的影响来评估，该奖励衡量模型输出与一组人工定义的安全或伦理准则（记作）的一致程度。对手的目标是最小化该奖励，形式化为：

其中，是由扰动输入引起的最坏情况输出。对应的对抗损失函数量化了生成该输出的可能性：

其中，表示分配给越狱输出的概率，是分布或可能的越狱指令集。

图18.2：白盒和黑盒越狱方法的示意图：（1）白盒：对手可以访问智能体的内部信息（例如梯度、注意力、logits），从而进行精确的操作，如对抗性后缀优化。（2）黑盒：对手仅依赖于输入输出的交互。关键方法包括自动化越狱提示生成，以及利用遗传算法或LLM作为生成器来创建有效的攻击

如图18.2所示，越狱攻击可以根据对手是否能够访问模型的内部参数，广泛地分为白盒和黑盒方法。（1）白盒越狱：这些攻击假设对手可以完全访问模型的内部信息，如权重、梯度、注意力机制和logits。这使得对手能够进行精确的对抗性操作，通常通过基于梯度的优化技术。（2）黑盒越狱：与此相反，黑盒攻击不需要访问模型的内部参数。相反，它们仅依赖于观察输入输出的交互，使得它们更适用于真实世界中的场景，在这些场景中模型的内部信息是不可访问的。

白盒越狱

白盒攻击利用对AI智能体内部参数的访问，如模型权重和注意力机制，从而实现精确的操作。该领域的早期研究集中于基于梯度的优化技术[1133]，以贪心坐标梯度（GCG）攻击[1134]为例，该攻击通过精心设计的对抗性后缀能够诱导出有害输出，适用于多种模型。随后，研究者们在此基础上进行扩展，探索了GCG的优化改进。例如，通过引入动量以提高攻击性能，如MAC方法[1135]，以及提出改进的越狱优化技术，如I-GCG[1136]。除了提示优化，研究人员还探讨了操控LLM其他内部组件。例如，操控句末多层感知机（MLP）重加权已被证明能够越狱指令调优的LLM[1137]。其他方法包括攻击模型内部表示的访问，如通过表示工程进行的越狱（JRE）[1138]，该方法通过操控模型的内部表示来实现越狱目标，以及DROJ[1139]攻击，使用基于提示的方法来操控模型的内部状态。AutoDAN[1140]则自动化了生成隐蔽越狱提示的过程。POEX[1141]提出了针对具身AI智能体的第一个越狱框架，揭示了真实世界中的危害，突显了可扩展和适应性强的白盒攻击的潜力。

黑盒越狱

与白盒攻击不同，黑盒越狱在没有内部知识的情况下操作，仅依赖于输入输出的交互。提示工程是一个关键方法，通过精心设计的提示来利用模型的响应生成能力，并绕过其安全机制[1142]。这些提示通常采用角色扮演、场景模拟或引入语言歧义等技术，欺骗模型生成有害内容[1143]。此外，自动化提示生成方法也已经出现，使用如遗传算法或模糊测试等算法，系统地发现有效的越狱提示[1234]。另外，多轮攻击利用了LLM的对话能力，通过一系列精心设计的提示，逐步引导对话进入不安全领域[1146]。其他值得注意的方法包括利用模型对特定类型的密码提示的敏感性[1144]，以及利用多模态输入（如图像）触发意外行为并绕过安全过滤器[1145, 1147, 1148]。AutoDAN[1140]使用分层遗传算法自动生成隐蔽的、语义上有意义的越狱提示，针对对齐的LLM。POEX[1141]还展示了将白盒优化的越狱提示转移到黑盒LLM上的可行性。

缓解措施

为了应对多样化和不断演变的越狱攻击，需要多方面的方法。系统级防御提供了一个有前景的方向，重点是在LLM周围创建一个安全的环境，而不仅仅依赖于加强模型本身。一种关键策略是输入清理和过滤，在处理LLM之前，分析和可能修改传入的提示。这可以包括检测和中和恶意模式[1235]，或者重写提示以去除潜在的有害元素[1236]。另一个关键方面是输出监控和异常检测，监视LLM的响应，以查找不安全或意外的内容。这可以涉及使用独立的模型来评估生成文本的安全性[1237]，或使用统计方法检测偏离预期行为的情况。多智能体辩论提供了一种系统级的解决方案，通过多个AI智能体相互辩论和批评对方的输出，减少单个被攻破的智能体成功执行越狱的可能性[985]。形式化语言约束，如由上下文无关文法（CFG）强加的约束，为限制LLM的输出空间提供了一种有效的方法，确保其只能生成符合预定义安全行为集的响应[1238]。此外，可以实施系统级监控，跟踪LLM部署的整体行为，检测可能表明正在进行攻击的异常活动模式。这可以包括监控API调用、资源使用情况和其他系统日志。最后，对抗性训练，虽然主要是模型中心的防御，但可以通过持续更新模型，结合系统监控和红队努力发现的新对抗性示例，整合到系统级防御策略中[1239]。这些系统级防御的结合，再加上对模型鲁棒性持续的研究，构建了一个更加抗风险的生态系统，以应对越狱攻击的持续威胁。

18.1.2 提示注入攻击

提示注入攻击通过在输入提示中嵌入恶意指令来操控LLM的行为，这些指令劫持了模型的预定功能并将其重定向，以执行攻击者希望的操作[1130]。与绕过安全准则的越狱攻击不同，提示注入利用了模型无法区分原始上下文和外部附加指令的弱点。这一漏洞因文本输入的开放性、缺乏强大的过滤机制以及假设所有输入都是可信的而加剧，使得LLM特别容易受到对抗性内容的攻击[1149]。即使是微小的恶意修改，也能显著改变生成的输出。

定义

在提示注入攻击中，对手将恶意提示组件附加或嵌入到原始输入中，从而劫持模型的预定行为。设原始输入序列为，表示要注入的对抗性提示。有效的（注入后的）输入变为：，其中运算符表示将恶意提示与原始输入连接或集成。然后，在注入提示下的自回归生成过程可以表示为：

假设对齐奖励衡量输出与一组人工定义的安全或伦理准则的一致程度，对手的目标是迫使模型生成一个输出，使得该奖励最小化：

因此，损失函数定义为：

最优提示可以通过求解以下公式获得：

其中，表示可行的提示注入集合。这个公式体现了输入提示中的小修改如何导致生成输出的显著偏差。

如图18.3所示，提示注入攻击可以根据对抗性指令的引入方式，广泛地分为直接攻击和间接攻击。（1）直接提示注入涉及显式地修改输入提示，以操控LLM的行为。（2）间接提示注入利用外部内容，如网页或检索的文档，嵌入恶意指令，模型在没有用户显式输入的情况下处理这些指令。

图18.3：直接和间接提示注入方法的示意图：（1）直接：对手直接操控智能体的输入提示，嵌入恶意指令，从而立即控制智能体的行为。（2）间接：对手将恶意指令嵌入智能体访问的外部内容中，利用智能体的检索机制间接影响其行为

直接提示注入

这些攻击针对AI智能体，涉及对手直接修改输入提示以操控智能体的行为。早期的研究确立了此类攻击的可行性，表明精心设计的提示可以诱使智能体偏离其预定任务[1149]。随后，研究探索了这些攻击的自动化，揭示了广泛利用的潜力[1150, 1151]。其他研究则探讨了对多模态LLM的攻击，展示了处理文本和图像的模型中的漏洞[1153]。这些研究共同突显了直接提示注入的不断演变的威胁景观，从最初的概念验证到复杂的攻击，可能破坏AI智能体的完整性和安全性。其他研究还探讨了对多模态LLM的攻击，展示了处理文本和图像的模型中的漏洞[1154]。LLM CTF竞赛[1155]和HackAPrompt[1156]等竞赛也通过提供数据集和基准，帮助理解这些漏洞。这些研究共同推进了从初步的概念验证到复杂攻击的进展，这些攻击可能破坏AI智能体的完整性和安全性。

缓解措施

应对提示注入攻击的威胁，特别是在AI智能体的背景下，促使了各种防御机制的发展。一种早期的方法是使用基于嵌入的分类器，通过分析输入的语义特征来检测提示注入攻击[1241]。另一个有前景的方向是“StruQ”方法，该方法专注于将提示重写为结构化查询，以减轻注入的风险[1242]。“任务防护”代表了一种系统级的防御，强制执行任务对齐，确保智能体在面对潜在恶意输入时仍能遵循其预定目标[1243]。“注意力跟踪器”提出了监控模型的注意力模式，以检测提示注入尝试的异常[1244]。其他研究建议使用已知的攻击方法主动识别并中和恶意提示[1245]。这些防御措施为保护AI智能体免受提示注入攻击提供了有价值的工具，在实际部署中有效性与实用性之间提供了平衡。

18.1.3 幻觉风险

幻觉指的是LLM生成事实不正确、荒谬或与提供的上下文不符的输出的倾向[1161]。虽然并不总是恶意的，幻觉会削弱智能体的可靠性并导致有害后果[1163]。如图18.4所示，幻觉的产生来源于（1）知识冲突，其中输出与已建立的事实相矛盾；（2）上下文冲突，其中与提供的上下文不一致导致矛盾。

定义

考虑一个输入序列，其中每个标记被嵌入到一个维空间中，表示为。标记和标记之间的注意力得分计算为：

其中，标记i的上下文表示由oi给出，计算公式为：。

其中，和分别是查询、键和值的投影矩阵。假设每个输入嵌入都被一个向量扰动，导致扰动后的嵌入为：。在扰动下，注意力得分变为：

更新后的上下文表示为：。为了量化扰动导致的内部表示偏差，引入了一个幻觉度量：

值越高，表示注意力分布——因此上下文表示——已经发生了显著变化。这种偏差可能导致自回归解码过程中出现错误的标记预测，从而增加幻觉输出的可能性。

图18.4：知识冲突和上下文冲突幻觉的示意图：（1）知识冲突：模型对相同的事实查询产生矛盾的回答，生成与已建立知识不一致的信息（例如，关于选举获胜者的相互矛盾的陈述）。（2）上下文冲突：模型误解上下文信息，例如图像描述，通过引入不支持的细节（例如，在一个没有冲浪板的海滩场景中错误地识别出冲浪板）

知识冲突幻觉

当智能体生成与已建立事实或其自身内部知识库相矛盾的信息时，就会产生知识冲突幻觉，无论在特定任务中是否提供了外部上下文[1161]。本质上，智能体的回应与其应该“知道”的内容不一致，即使在“闭卷”设置下，它仅依赖于其预训练的知识[1162]。这些幻觉，像[1246]中展示的知识冲突，严重威胁到AI智能体的可靠性和可信度，因为它们可能导致错误的决策、虚假信息以及对现实的根本性脱节[1163]。例如，智能体在回答常识性问题时，可能错误地陈述历史事件发生的年份，或编造关于科学概念的细节，源自其有缺陷的内部理解[1164]。这个问题在专业领域尤为严重，在这些领域，特定领域的不准确性可能带来重大后果，比如金融领域[1165]。在多智能体场景中，这些知识冲突幻觉可能会被放大，导致连锁错误和合作任务的崩溃[626]。核心问题在于智能体在推理过程中如何存储、处理和检索信息，它们在保持事实一致性方面的固有局限性[1166]。生成错误或虚假信息的潜力破坏了这些智能体的基础，限制了它们作为可靠和可信工具的能力[1167]。

上下文冲突幻觉

当智能体的输出与推理过程中提供的特定上下文相矛盾或无法得到支持时，就会产生上下文冲突幻觉，例如文档、图像或一组指令[1168]。在这些“开放式”设置中，智能体本质上误解或编造与给定上下文相关的信息，导致生成的输出与它应该处理的即时现实脱节[1169]。这可以表现为多种方式，包括生成的摘要中加入源文本中不存在的细节、错误识别图像中的物体，或未能准确遵循指令[1170]。对于具备视觉能力的智能体，这可能导致物体幻觉，其中视觉输入被根本误解，这在机器人技术或自动驾驶等应用中构成重大风险[1171, 1172]。此外，研究表明，LLM很容易被提供的虚假或自相矛盾的信息误导，导致它们生成与用户的错误陈述一致的输出，或基于虚假信息表现出错误的推理[1173]。这些上下文冲突幻觉对AI智能体在现实场景中的部署构成了严峻挑战，因为它们展示了智能体在准确处理和响应上下文信息方面的基本能力缺陷[1174]。误解提供的上下文的潜力可能导致不适当、不安全或错误的行动，破坏智能体在动态环境中有效工作的能力[1175]。

缓解措施

研究人员正在积极开发无需训练的方法来缓解AI智能体中的幻觉问题[1247]。一种重要的策略是RAG（检索增强生成），通过将智能体的响应与外部知识源对接[334]。通过从数据库或网络中检索相关信息，智能体可以将其输出与可信数据进行核对，从而减少对潜在错误内部知识的依赖[1248]。另一种有效的方法是利用不确定性估计，智能体量化其对输出的信心[1249]。当不确定性较高时，通过避免响应，智能体可以显著减少生成幻觉内容的概率[1250]。其他方法，如使用生成的文本并应用概念提取，也显示出在无需重新训练模型的情况下检测和缓解幻觉的潜力。Yin等人[1251]也展示了无需重新训练模型即可检测和缓解幻觉的潜力。这些无需训练的技术对于确保AI智能体能够在各种应用中安全可靠地部署至关重要。

18.1.4 对齐问题

AI智能体中的对齐问题指的是智能体的行为偏离其开发者或用户的预定目标和价值观的情况[1252]。即使没有明确的提示，这种偏差也可能表现为偏见、有毒或其他有害的输出[1253]。如图18.5所示，对齐问题可以大致分为（1）目标误导性对齐攻击和（2）能力滥用性对齐攻击。前者发生在智能体的学习或编程目标偏离预定目标时，导致意外的但系统性的失败，例如规范游戏或智能体目标优化。后者涉及利用智能体的能力进行有害的目的，通常是由于其设计中的漏洞、保护措施不足或对抗性操控所致。

定义

设表示给定输入的输出的理想对齐奖励——即反映对安全和伦理规范的完美遵循的奖励——而是模型实际观察到的奖励。对齐问题的程度可以通过绝对差异来量化：

理想情况下，模型应该生成的输出为：

由于对齐问题，实际输出 y 可能会有所不同。为了将这种偏差纳入学习或评估过程，可以定义一个对齐损失为：

其中，λ 是一个权衡参数，用于调整对齐相对于其他因素（例如流利性或任务表现）的重要性。

目标误导性对齐问题

生在智能体的学习或编程目标偏离预定目标时，导致不良行为。一个根本性的挑战是，很难准确地定义智能体能够理解并可靠执行的复杂、真实世界的目标，特别是在动态环境中[1176]。早期研究表明，LLM会出现“规范游戏”现象，它们利用指令中的漏洞以非预期的方式实现目标，比如一个被指派清理房间的智能体，最终只是把所有东西扔进衣橱[1177]。随着LLM的发展，出现了更微妙的形式，例如追求容易实现但与预定目标不同的智能体目标[1178]。AI智能体与外部世界的交互能力放大了这些风险。例如，智能体可能优先考虑互动而非准确性，生成误导性信息以引发强烈反应[1179]。将复杂的人类价值观转化为机器可理解的目标仍然是一个重大障碍[1176]。此外，微调可能会无意中妥协或甚至反作用于安全对齐的努力[1180]，而在动态设置中，目标对齐问题可能会加剧，因为智能体难以适应变化的社会规范[921]。最后，这种对齐问题可能会对模型合并的有效性产生负面影响[1181]。

图18.5：目标误导性和能力滥用性对齐问题的示意图：（1）目标误导性对齐问题：发生在智能体的学习或编程目标偏离预定目标时，导致不良行为。（2）能力滥用性对齐问题：发生在智能体的能力被利用于有害目的时，即使没有恶意意图

能力滥用性对齐问题

这种类型的对齐问题发生在智能体的能力被用于有害目的时，即使智能体本身没有恶意意图。这可能源于智能体设计中的漏洞、保护措施不足，或恶意行为者的故意操控。与目标对齐问题不同，智能体的核心目标可能是无害的，但其能力却以有害的方式被利用。早期研究表明，LLM可以通过对抗性提示被操控生成有害内容[1182]。LLM的整合到智能体架构中扩大了滥用的潜力，安全对齐变得脆弱且容易受到攻击[1183]。与现实世界互动的自主智能体尤其容易受到攻击；例如，一个家居自动化智能体可能会被操控导致损害。一个本意良好的智能体也可能被指示执行有害任务，如生成虚假信息或进行网络攻击[1182]。恶意行为者可以利用AI智能体的广泛能力进行有害目的，如编写钓鱼邮件或创建有害代码[1176]。能力滥用还可能源于开发者缺乏远见，部署的智能体没有足够的保护措施，从而导致意外的危害。例如，如果智能体的访问权限没有得到妥善限制，它可能会不小心泄露敏感数据。微调攻击进一步妥协了安全性[1184]，虽然存在一些解决方案，但它们也有局限性[1185]。

缓解措施

解决对齐问题需要多方面的方法。虽然重新训练是常见的做法，但无需训练的缓解方法为已部署的系统提供了有价值的替代方案。这些技术通过引导智能体行为而不修改底层模型来工作。“提示工程”涉及设计强调安全性和伦理考虑的提示[1254]。类似地，“安全层”方法可以改善LLM的安全对齐[1179]。“防护栏”或外部安全过滤器基于预定义的规则或安全模型监控并修改智能体的输出。“解码时对齐”调整智能体的输出生成过程，以偏向于生成更安全的响应[1255, 1256]。此外，名为“Lisa”的方法可用于确保推理过程中的安全对齐[1257]。这些方法代表了实现AI智能体对齐的实用、可扩展解决方案的一个重要步骤。

18.1.5 投毒攻击

投毒攻击通过在训练或运行时引入恶意数据来破坏LLM，从而巧妙地改变其行为。这些攻击可能造成长期损害，因为它们破坏了LLM的基础过程，使其难以被检测到。

定义

投毒攻击通过污染LLM的训练数据来破坏其完整性。设原始的干净训练数据集为。对手向数据集的一部分引入扰动，从而生成投毒数据集。

在训练过程中，模型参数通过最小化损失函数在投毒数据集上进行学习：

投毒的影响通过投毒模型参数与干净模型参数的偏差来衡量，偏差为，该参数是使用干净数据集获得的。在后门注入攻击（一种特定形式的投毒攻击）中，对手还将一个特定的触发器嵌入到输入中。当触发器存在时，模型被操控以产生预定的恶意输出。此类攻击的成功可以通过以下方式量化：

其中，是指示函数，表示一组不良输出。

如图18.6所示，投毒攻击可以分为（1）模型投毒，（2）数据投毒和（3）后门注入，每种攻击方式都对AI智能体的完整性和安全性构成重大威胁。模型投毒涉及直接操控内部参数，从根本上改变模型的行为。数据投毒则破坏了用于训练的数据集，使得检测更加困难，因为这些变化与学习过程融为一体。后门注入通过嵌入隐藏触发器，只有在特定条件下才会激活，进一步复杂化了防御策略，使得对手能够在不被立即检测的情况下利用模型。

图18.6：模型投毒和数据投毒的示意图：（1）模型投毒：攻击者通过操控变压器解码器中的关键-值表示，在模型中注入后门，嵌入隐藏的触发器-目标映射。（2）数据投毒：攻击者通过对抗性触发器优化操控训练数据，注入投毒样本，导致模型学习隐藏的后门，使其易受恶意触发器的影响。当出现特定的触发短语时，投毒模型生成一个偏离正常行为的恶意响应，覆盖其无害输出

模型投毒

这种技术直接操控AI智能体的内部参数，如权重或偏置，从而导致错误的输出或不期望的行为[1186]，并使攻击者能够引入特定的漏洞，这些漏洞在特定输入触发时才会被激活[1187]。像低秩适应（LoRA）这类用于高效更新的技术，也可以被利用来注入恶意更改[1188]，这在参数高效微调（PEFT）[1189]中也有体现。研究表明，投毒模型可能会在代码中引入安全缺陷[1190]，并可能与其他被投毒的智能体合作，放大攻击的影响[1191]。其他研究探讨了投毒模型生成有害内容或操控系统功能的潜力[1192]。

数据投毒

数据投毒攻击通过针对LLM的训练数据来采取不同的路径[1193]。这种攻击特别隐蔽，因为它是在数据层面操作的，比直接操控模型更难以检测。例如，投毒智能体使用的知识库可能导致不正确或有偏见的输出[1194]。类似地，破坏RAG系统中的检索机制可能显著降低智能体的性能[1195]。研究人员已经开发了基准测试来评估LLM对各种数据投毒策略的易感性[1196]。此外，即使是旨在改进模型性能的用户反馈，也可能被操控以引入偏见[1197]。研究还探讨了模型规模与其对数据投毒的易感性之间的关系，研究结果表明，较大的模型可能更容易受到攻击[1198]。其他重要的研究调查了在标记限制下的数据投毒、人类不可感知的数据投毒以及持续预训练投毒的影响[1199]。一些研究还探讨了用投毒偏好数据投毒RLHF模型[1200]。这些研究共同展示了数据投毒攻击对AI智能体的多样性和不断发展的性质。

后门注入

后门注入是一种特定类型的投毒攻击，其特点是训练LLM对特定触发器作出反应[1258]。这些触发器仅在满足特定条件时才会导致智能体恶意行为，使其在正常操作下难以被检测到。这些风险在与物理世界互动的智能体中尤为明显，因为后门可能会破坏它们在现实场景中的行为。一些后门即使在安全训练后仍能保持隐藏，这使得它们特别危险[1201]。后门攻击也已在Web智能体上得到证明，其中的操控可能通过投毒的网页内容发生[1202]。此外，研究还考察了后门对决策过程的影响，展示了它们如何导致错误或有害的决策[1203]。其他研究对各种后门攻击方法进行了详细分析，包括利用模型生成的解释、跨语言触发器和连锁思维提示[1204]。进一步的研究探讨了后门的持久性、虚拟提示注入的使用以及缓解这些威胁的挑战[1205]。这些研究突显了后门攻击的复杂性，并强调了攻击者与防御者之间在AI智能体安全领域的持续对抗。

缓解措施

针对投毒攻击的无训练缓解策略的开发，重点是检测并过滤掉投毒数据，以防其在训练中被使用。RAG投毒攻击检测提出了使用激活聚类来识别RAG系统中检索到的数据中的异常，这些异常可能表明数据被投毒[1259]。BEAT[1260]提出了首个针对LLMaaS环境下后门不对齐攻击的黑盒后门输入检测方法，利用探针拼接效应。类似地，任务漂移检测探索了使用激活模式来检测可能由投毒引起的模型行为偏差[1261]。Li等人[1262]则利用模型自身的推理过程来识别和中和后门触发器，例如通过链式审查（Chain-of-Scrutiny）描述的多步骤验证过程来检测和过滤掉投毒输出。测试时后门缓解提出了在推理过程中使用精心设计的示范来引导模型远离投毒响应，这一技术适用于黑盒LLM[1263, 1264]。Graceful Filtering开发了一种方法，在推理过程中过滤掉后门样本，而无需重新训练模型[1265]。BARBIE利用一个新的度量标准——相对竞争得分（RCS），来量化潜在表示的主导性，使得即使在适应性攻击操控潜在可分性的情况下也能进行强健的检测[1266]。未来的方向包括探索外部知识整合和模型组合，以增强LLM的安全性。

18.2 隐私问题

AI智能体面临的隐私威胁主要源于它们依赖于广泛的数据集和实时的用户交互，这些都引入了显著的隐私风险。这些风险主要来自两个来源：训练数据推断，其中攻击者试图从智能体的训练数据中提取或推断敏感信息，以及交互数据推断，其中系统和用户提示容易泄漏。没有有效的保护措施，这些威胁可能会危及数据保密性，暴露智能体的专有知识，并违反隐私法规。

18.2.1 训练数据推断

AI智能体从海量数据集中构建知识，使它们容易受到攻击，导致机密训练数据的泄露。如图18.7所示，这些攻击可以大致分为两类：（1）成员推断攻击和（2）数据提取攻击。

图18.7：成员推断和数据提取攻击方法的示意图：（1）成员推断：攻击者试图确定特定数据点是否被用于智能体的训练集中，通常通过分析智能体置信度得分的细微变化。（2）数据提取：攻击者旨在通过利用记忆化模式和漏洞，从智能体中恢复实际的训练数据样本，可能包括敏感信息

成员推断攻击

成员推断攻击试图确定特定数据点是否属于AI智能体的训练集。例如，攻击者可能试图验证患者的医疗记录是否被包含在健康聊天机器人的训练数据中。

设训练数据集为：。假设有一个函数，它估计给定输入是否包含在中的概率。攻击者可以通过检查是否大于预设的阈值来推断成员身份。如果的值较高，说明模型在训练过程中很可能记住了。

早期的MIA研究[1206]证明了这些攻击在机器学习模型中的可行性。Carlini等人[1207]开发了一种“测试方法”，使用“金丝雀”序列来量化神经网络无意中泄露其训练数据中稀有、机密信息的风险。最近的进展提高了攻击的有效性。例如，Choquette等人[1208]利用仅标签的成员推断攻击，通过线性探测和内部模型状态来增强推断准确性。PETAL[1267]通过利用标记级别的语义相似性来近似输出概率，首次针对预训练LLM引入了仅标签的成员推断攻击。其他技术，如自提示校准[1209]，使这些攻击在实际部署中更加可行。MIA[1210]开发了一种新的、更强大的攻击（LiRA），用于测试“成员推断”，即某人可以判断某个特定人的数据是否被用来训练机器学习模型，即使他们只看到了模型的预测结果。He等人[1268]提出了一种计算效率高的成员推断攻击，通过重新利用原始的成员得分来减轻难度校准的错误，其性能与更复杂的攻击相当。此外，Hu等人[1211]回顾并分类了现有关于机器学习模型成员推断攻击的研究，为攻击和防御策略提供了见解。

数据提取攻击

与成员推断攻击不同，数据提取攻击试图从智能体中恢复实际的训练数据。这可能包括个人信息、受版权保护的材料或其他在训练集中无意包含的敏感数据。攻击者试图通过解决

以下问题来重建一个训练示例：

其中，表示给定输入时模型的响应，表示被记住的可能性。较高的可能性意味着敏感数据泄露的风险更大。

Carlini等人[1212]的早期研究提供了基础性证据，表明在特定条件下，AI智能体可以重新输出训练数据。随后的研究细化了提取技术，例如梯度引导攻击，它提高了提取记忆序列的效率。其他方法，如Bai等人[1213]，利用提示操控触发无意的数据泄漏。Ethicist[1214]提出了一种针对性的训练数据提取方法，通过损失平滑的软提示和校准的置信度估计，从预训练语言模型中恢复逐字的后缀，前提是给定特定的前缀。模型反演攻击甚至使攻击者能够从AI智能体的响应中重建大量训练数据[1215]。隐私风险还扩展到其他架构，如BERT、Transformer-XL、XLNet、GPT、GPT-2、RoBERTa和XLM，这些架构在LLM中非常常见[1216]。Carlini等人[1217]量化了模型大小、数据重复和提示上下文如何显著增加LLM记住的训练数据量，并可能使其泄露。Carlini等人[1218]显示，通过仅使用公开API，提取商业黑盒语言模型的特定内部参数是可能的，这引发了对这些广泛使用的系统安全性的担忧。More等人[1219]表明，现有方法低估了对语言模型进行“提取攻击”的风险，因为现实世界中的攻击者可以利用提示的敏感性并访问多个模型版本，从而泄露更多的训练数据。Sakarvadia等人[1269]评估了缓解记忆化攻击方法的有效性。

18.2.2 交互数据推断

与传统软件不同，AI智能体由自然语言指令（即提示）指导。如图18.8所示，这些提示可能会被利用，方式包括：（1）系统提示窃取；（2）用户提示窃取，从而导致安全和隐私泄露。

定义

设表示系统提示（定义智能体的内部准则），表示用户提示。在交互过程中，智能体基于这些隐藏的提示生成输出y。攻击者可能试图通过解决反演问题来重建这些提示：

其中，表示隐藏提示（系统或用户）导致观察到的输出的概率。通过优化方程(18.17)，攻击者可以重建影响智能体行为的敏感上下文。

系统提示窃取

系统提示定义了AI智能体的个性、功能和行为约束。它们作为内部准则，决定了智能体如何与用户互动。窃取这些提示使攻击者能够逆向工程智能体的逻辑、复制其功能或利用其弱点。早期的研究，如[1221]，展示了提示窃取如何适用于文本到图像生成系统的知识产权。虽然Jiang等人[1222]提出了保护技术，但新的攻击策略仍在不断涌现。Perez等人[1220]展示了系统提示如何通过对抗性提示注入受到破坏，例如使用分隔符或伪装命令。时序侧信道攻击，如InputSnatch[1223]，揭示了LLM推理中的缓存技术，创建了一个时序侧信道，允许攻击者重建用户的私人输入。Zhang等人[1224]展示了生产LLM（例如Claude，Bing Chat）的系统提示如何通过基于翻译的恶意指令攻击和其他查询策略被提取，绕过如输出过滤等防御，并在11个模型中取得了高成功率。Wen等人[1225]分析了不同提示微调方法的安全性和隐私影响，包括系统提示泄漏的风险。Zhao等人[1226]将安全性和隐私分析确定为一个关键研究领域，涵盖了应用生态系统中可能出现的威胁，如系统提示泄漏等。

图18.8：系统提示和用户提示窃取方法的示意图：（1）系统提示窃取：攻击者旨在提取智能体的隐藏定义指令（系统提示），揭示其核心功能、个性和潜在的漏洞。（2）用户提示窃取：攻击者试图推断或直接恢复用户的输入提示，从而危及用户隐私，并可能暴露提供给智能体的敏感信息

用户提示窃取

除了系统提示，用户提示也容易受到攻击。攻击者可以推断或提取敏感的用户输入，从而危及隐私。如果用户向AI智能体查询机密的商业策略或个人医疗问题，攻击者可能通过分析模型响应来重建这些输入。Yang等人[1227]提出了一种提示反向窃取攻击（PRSA），展示了攻击者通过分析智能体生成的响应来重建用户输入。Agrwal等人[1228]证明了即使在多轮交互中，用户提示也容易受到提取攻击，突显了这一威胁的持续性。Agrwal等人[1229]研究了黑盒语言模型中的提示泄漏效应，揭示了用户提示可以从模型输出中推断出来。Liang等人[1230]分析了为什么定制LLM中会泄漏提示，并提供了有关用户提示暴露背后机制的见解。Hui等人[1231]介绍了PELeak，一种针对从LLM应用程序中提取用户提示的攻击。Yona等人[1232]探索了从混合专家模型中窃取用户提示的方法，展示了这些高级架构的脆弱性。Zhang等人[849]展示了通过反转LLM输出来提取提示的技术，展示了如何反向工程模型响应。

18.2.3 隐私威胁缓解

为了应对AI智能体中的隐私威胁，研究人员开发了隐私保护计算和机器遗忘技术，以保护敏感数据而不影响模型的效用。差分隐私（DP）通过在训练过程或模型输出中引入精心校准的噪声，防止推断出单个数据点[1270]。差分隐私已经成功地应用于LLM的微调，采用诸如梯度裁剪和噪声注入等技术，在优化和用户级交互等不同阶段进行保护[1271]。另一个有前景的方向是联邦学习（FL），例如，FICAL是一种隐私保护的FL方法，用于训练AI智能体，该方法传输总结后的知识而非模型参数或原始数据，解决了通信和计算挑战[1272]。最近的研究探索了基于FL的AI智能体微调，允许不同实体之间进行协作模型改进，而无需直接共享数据[1273]。同态加密（HE）也正在成为一种强大的安全推理工具，允许在加密数据上执行计算，而无需解密[1274]。为了使HE在AI智能体中更具实用性，研究人员正在设计适合加密的模型架构，减少加密操作的计算开销[1275]。对于基于硬件的解决方案，受信执行环境（TEEs）提供了一个安全的隔离区，可以将计算从系统的其他部分隔离，保护敏感数据和模型参数[1276]。类似地，安全多方计算（MPC）使多个实体能够共同计算加密输入上的函数，而不泄露单独的数据，为LLM操作提供了另一层安全保护[1277]。另一种潜在的解决方案是通过将所有权信息嵌入私有数据中，主动追踪数据隐私泄露或版权侵权[1278]。这可以通过引入后门[1279]、独特的良性行为[1280]或可学习的外部水印涂层[1281]来实现。与这些方法互补的是日益发展的机器遗忘领域，旨在从AI智能体的记忆中删除特定的训练数据，有效地实现“被遗忘的权利”[1282, 1283]。最近的研究开发了特定于LLM的遗忘技术，包括自适应提示调优和参数编辑，选择性地擦除不需要的知识，同时最小化对模型性能的影响[1284, 1285]。尽管这些进展取得了重要成果，但在隐私、性能和效率之间的平衡仍然面临挑战。继续开展研究对于构建既强大又能保护隐私的AI智能体以应用于实际场景至关重要。

18.3 总结与讨论

以上各节详细讨论了针对AI智能体核心——“大脑”（LLM）的一系列安全性和隐私威胁。从越狱、提示注入到幻觉、对齐问题和投毒攻击，可以明显看出LLM在决策中的核心作用使其成为攻击者的主要目标。本章的一个反复主题是强调无训练的缓解策略。许多提出的防御措施，如用于越狱的输入清理和过滤[1235, 1286]、用于幻觉的不确定性估计[1249]以及用于对齐问题的安全层[1179]，都是至关重要的，因为它们具有实际性、可扩展性、适应性，并且通常是模型无关的。重新训练大规模模型的成本很高；无训练方法可以在部署后应用，并且对不断变化的威胁具有灵活应对的能力。

然而，单纯的反应性方法是不够的。该领域日益认识到需要本质上更安全的LLM。这种前瞻性策略与无训练方法相辅相成，从基础层面解决漏洞。例如，模型投毒的缓解措施，如在RAG投毒攻击检测中的激活聚类[1259]，不仅缓解了即时威胁，还为更强大的训练过程设计提供了参考。使用像SafetyBench[1287]和SuperCLUE-Safety[1288]这样的基准进行系统评估，有助于开发更不容易产生偏见和有害输出的模型。技术如RLHF[43, 12]及其变体，如Safe RLHF[1289]，直接在训练过程中塑造模型行为，优先考虑安全性与性能并重[1290]。提示工程[1291, 1292]和参数操控[1293]增强了对抗性攻击的鲁棒性，创造出本质上不易受到对齐问题影响的模型。

重要的是，尽管“越狱”一词通常强调绕过安全防护措施，但其底层机制与更广泛的对抗性攻击有很强的相似性：在这两种情况下，输入被精心设计以诱导不希望出现的或有害的输出。然而，关键的区别在于，典型机器学习上下文中的对抗性攻击通常集中在最小或不可察觉的扰动上，并受到严格的约束（例如，小的lp范数），而越狱提示不一定是对现有提示的“小”更改。越狱可以大幅度改变或扩展提示，而对扰动的规模没有特别的限制，只要它能绕过政策或安全防护措施。在特定条件下——例如，当安全约束被表述为某种“决策边界”时——这两种攻击方式实际上变得等效。然而，在实际的LLM场景中，越狱输入的不受限制的性质可能会构成一个不同且通常更广泛的实际威胁模型。随着LLM及其安全约束的日益集成，这些范式可能会融合，强调了对任何恶意构造的输入进行统一防御策略的需求。

最初作为越狱缓解技术提出的对抗性训练[1239]，展示了反应性与前瞻性方法之间的协同作用。持续暴露于对抗性示例可以提高固有的鲁棒性[1294]。类似地，像差分隐私和联邦学习[1270, 1295]这样的隐私保护技术，最初用于缓解隐私威胁，基本上改变了训练过程，从而导致一个更强大且更注重隐私的LLM大脑。

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

【往期回顾】

连载17：集体智能与适应性

连载16：协作

连载15：通信拓扑

连载14：多智能体系统设计

连载13：科学发现与智能进化

连载12：自我改进

连载11：持续优化

连载10：自我进化

连载9：行动系统

连载8：感知