当前位置: 首页 > news >正文

在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨

概述

关于是否值得对 AI 保持礼貌的公众意见,几乎和咖啡或红酒的最新研究结果一样频繁变化——这个月被推崇备至,下个月又受到质疑。即便如此,越来越多的用户现在在提示语中加入“请”或“谢谢”,这不仅仅是因为习惯,或者担心粗鲁的交流会延续到现实生活中,而是因为他们相信礼貌能够带来更好、更高效的结果。

这种假设在用户和研究人员之间都有所流传,提示语的措辞在研究领域被当作一种工具,用于对齐、安全和语气控制,而用户习惯也在不断强化和重塑这些期望。

例如,2024 年日本的一项研究发现,提示语的礼貌程度可以改变大型语言模型的行为。研究测试了 GPT-3.5、GPT-4、PaLM-2 和 Claude-2 在英语、中文和日语任务上的表现,并将每个提示语改写为三种不同的礼貌程度。该研究的作者发现,“直白”或“粗鲁”的措辞会导致事实准确度降低和回答更短,而适度礼貌的请求则能产生更清晰的解释和更少的拒绝。

此外,微软建议在使用 Co-Pilot 时保持礼貌语气,这更多是出于性能而非文化角度的考虑。

然而,乔治华盛顿大学的一项新研究论文对这一越来越流行的观点提出了挑战,该论文提出了一个数学框架,用于预测大型语言模型的输出何时会“崩溃”,即从连贯内容转变为误导性甚至危险的内容。在这一背景下,作者认为,礼貌并不能显著延迟或阻止这种“崩溃”

提示语的转变

研究人员主张,礼貌语言的使用通常与提示语的主题无关,因此不会显著影响模型的焦点。为了支持这一观点,他们详细阐述了一个注意力头在处理每个新标记时如何更新其内部方向,从而证明模型的行为是由承载内容的标记的累积影响所塑造的。

因此,礼貌语言被认为对模型输出何时开始退化几乎没有影响。论文指出,决定临界点的是有意义的标记与良好或不良输出路径的整体对齐程度——而不是社交礼貌语言的存在与否。

一个简化的注意力头根据用户提示生成序列的示意图。模型从良好的标记(G)开始,然后到达临界点(n*),输出转向不良标记(B)。提示语中的礼貌术语(P₁、P₂等)在这个转变中不起作用,支持论文的观点,即礼貌对模型行为几乎没有影响。

如果这一结果属实,那么它将与流行观点相矛盾,甚至可能与隐含的指令调整逻辑相悖,后者假设提示语的措辞会影响模型对用户意图的解释。

模型的“失控”

论文研究了模型内部的上下文向量(其不断变化的标记选择指南)在生成过程中的变化。随着每个标记的出现,这个向量会方向性地更新,下一个标记的选择则基于哪个候选标记与它最接近。

当提示语引导模型生成结构良好的内容时,模型的回应保持稳定和准确;但随着时间推移,这种方向性拉力可能会反转,引导模型走向越来越离题、错误或自相矛盾的输出。

这种转变的临界点(作者用数学方式定义为迭代次数 n*)发生在上下文向量与“不良”输出向量的对齐程度超过与“良好”输出向量的对齐程度时。在这一阶段,每个新标记都会将模型进一步推向错误的方向,强化一种越来越有缺陷或误导性的输出模式。

临界点 n* 是通过找到模型内部方向与良好和不良输出类型对齐程度相等的时刻来计算的。嵌入空间的几何形状(由训练语料库和用户提示语共同塑造)决定了这种交叉发生的速度:

示意图展示了临界点 n* 在作者简化模型中的出现方式。几何设置(a)定义了预测输出从良好转向不良的关键向量。在(b)中,作者使用测试参数绘制了这些向量,而(c)将预测的临界点与模拟结果进行了比较。两者完全匹配,支持了研究人员的观点,即一旦内部动态越过阈值,崩溃是数学上不可避免的。

礼貌术语不会影响模型在良好和不良输出之间的选择,因为根据作者的说法,它们与提示语的主题没有实质性联系。相反,它们出现在模型内部空间的与模型实际决策无关的部分。

当这些术语被添加到提示语中时,它们增加了模型需要考虑的向量数量,但并不会改变注意力轨迹。因此,礼貌术语就像统计噪声:存在,但无活性,且不会改变临界点 n*

作者指出:

“我们的 AI 响应是否会失控取决于我们的 LLM 的训练,它提供了标记嵌入,以及我们提示语中的实质性标记——而不是我们是否对它礼貌。”

该研究中使用的模型是有意简化的,专注于单个注意力头,具有线性标记动态——这是一个简化设置,其中每个新标记通过直接向量加法更新内部状态,而不涉及非线性变换或门控。

这种简化设置使作者能够得出精确结果,并为他们提供了一个清晰的几何图像,展示了模型输出何时会突然从良好转向不良。在他们的测试中,他们推导出的预测转变公式与模型的实际表现完全一致。

与 AI“聊天”

然而,这种精确性只有在模型被有意简化的情况下才有效。虽然作者承认他们的结论应该在更复杂的多头模型(如 Claude 和 ChatGPT 系列)上进行测试,但他们也认为该理论在增加注意力头数量时仍然可以复制,他们表示:

“当连接的注意力头和层数增加时,会出现什么额外现象是一个有趣的问题。但单个注意力头内的任何转变仍然会发生,并且可能会被耦合放大和/或同步——就像一串相连的人,当其中一人跌落悬崖时,其他人也会被拖下去。”

示意图展示了根据提示语倾向于良好或不良内容的程度,预测的临界点 n* 如何变化。该曲面来自作者的近似公式,显示礼貌术语(它们不明确支持任何一方)对崩溃发生的时间几乎没有影响。标记值(n* = 10)与早期模拟结果一致,支持了模型的内部逻辑。

目前还不清楚这种机制是否能够适应现代变换器架构。多头注意力引入了跨专业头的交互,这可能会缓冲或掩盖所描述的临界行为。

作者承认了这种复杂性,但他们认为注意力头通常是松耦合的,而且他们建模的那种内部崩溃可能会在完整的系统中被强化而不是被抑制。

如果没有对模型进行扩展或在生产 LLM 上进行实证测试,这一说法仍然未经验证。然而,这一机制似乎足够精确,足以支持后续的研究计划,作者也提供了在更大规模上挑战或确认这一理论的明确机会。

社会与文化的视角

尽管从技术角度来看,礼貌似乎对 AI 的输出影响有限,但从社会和文化的视角来看,礼貌的交流或许仍有其价值。首先,礼貌的交流可以增强用户体验,让用户感到更加舒适和尊重。其次,礼貌的交流方式可能会潜移默化地影响用户的行为习惯,进而影响到他们在现实世界中的社交互动。

此外,从长远来看,礼貌的交流方式可能会对 AI 的发展产生间接影响。如果用户普遍对 AI 保持礼貌,这可能会促使开发者更加注重 AI 的人性化设计,从而推动 AI 技术朝着更加友好和自然的方向发展。相反,如果用户对 AI 采取粗鲁或不礼貌的态度,可能会导致 AI 的发展走向更加机械和冷漠的方向。

总结

目前,对于面向消费者的 LLM 的礼貌问题,似乎要么从(实用主义)的角度出发,认为经过训练的系统可能会对礼貌的询问做出更有用的回应;要么认为与这些系统进行无礼和粗鲁的交流会通过习惯的力量延续到用户的现实社交关系中。

可以说,LLM 尚未在现实世界的社交环境中得到广泛使用,研究文献尚未确认后一种情况;但这篇新论文确实对将这种类型的人工智能系统拟人化的益处提出了有趣的质疑。

去年十月斯坦福大学的一项研究(与2020年的一项研究形成对比)指出,将 LLM 当作人类对待,还可能会降低语言的意义,得出结论认为“机械化的”礼貌最终会失去其原本的社会意义:

“如果某句话是由人类说出来的,可能会显得友好或真诚,但如果它来自 AI 系统,那么由于后者缺乏有意义的承诺或意图,这句话就会显得空洞和欺骗性。”

然而,根据 Future Publishing 2025 年的一项调查,大约 67% 的美国人表示他们对 AI 聊天机器人保持礼貌。大多数人认为这只是“正确的事情”,而 12% 的人承认他们只是出于谨慎——以防万一机器真的崛起。

原文地址:https://www.unite.ai/ai-doesnt-necessarily-give-better-answers-if-youre-polite/

http://www.xdnf.cn/news/301447.html

相关文章:

  • 告别异步复杂性?JDK 21 虚拟线程让高并发编程重回简单
  • Webview通信系统学习指南
  • 基于C++的IOT网关和平台7:github项目ctGateway设备协议开发指南
  • 点分治解析
  • Spark,配置hadoop集群1
  • Spring AI Alibaba-03- Spring AI + DeepSeek-R1 + ES/Milvus + RAG 智能对话应用开发全流程
  • 从黔西游船侧翻事件看极端天气预警的科技防线——疾风气象大模型如何实现精准防御?
  • 微服务框架中@FeignClient远程调用,请求无法携带问题处理
  • 【工具】解析URL获取实际图片地址下载原始FFHQ图像
  • 如何将本地 Jar 包安装到 Maven 仓库(以 Aspose 为例)
  • 小芯片大战略:Chiplet技术如何重构全球半导体竞争格局?
  • aws平台windows虚拟机扩容
  • Eigen矩阵的平移,旋转,缩放
  • 制造企业PLM系统成本基准:2025年预算分配与资源成本率的5种优化模型
  • AI智能体|扣子(Coze)实战【天气查询插件开发教程】
  • IAA-Net:一种实孔径扫描雷达迭代自适应角超分辨成像方法——论文阅读
  • centos的根目录占了大量空间怎么办
  • nut-list和nut-swipe搭配:nut-cell侧滑定义无法冒泡打开及bug(含代码、案例、截图)
  • 高并发PHP部署演进:从虚拟机到K8S的DevOps实践优化
  • 1. 视频基础知识
  • Java高频面试之并发编程-12
  • 详细教程:如何在vs code里面给普通的HTML搭建局域网服务器给其他设备访问
  • react-14defaultValue(仅在首次渲染时生效)和value(受 React 状态控制)
  • vue项目中渲染markdown并处理报错
  • Electrolink信息泄露(CVE-2025-28228)
  • 图像处理软件imgPro—调参救星!
  • RabbitMq(尚硅谷)
  • 常识补充(NVIDIA NVLink技术:打破GPU通信瓶颈的革命性互联技术)
  • 【quantity】1 SI Prefixes 实现解析(prefix.rs)
  • 当手机开始预判你的下一步:一场正在颠覆生活的AI静默革命