当前位置: 首页 > ds >正文

随记1-LLM多轮对话的陷阱

今天工作偶然看到一篇微软的文章《LLMs Get Lost In Multi-Turn Conversation》觉得蛮有意思的,遂分享一下感悟。这篇文章主要讲的是,为什么许多大语言模型(LLMs)在测评的各种任务各种benchmark中表现优异,但是在面对用户的实际交流中(主要指多轮对话的形式),效果不尽人意。

这个原因呢,是因为目前的评估大多集中在明确完整的单轮对话,即在一次性的prompt中就详细确定地把任务描述完成;然而在实际使用中,用户通常需要多轮沟通才能明确需求(一部分是因为大语言模型的效果差,需要根据输出调整措辞,一部分是用户本身就需要慢慢理清楚脉络)。因此在两种对话模式的gap中,模型的效果就产生了dif。

当然这里插一句,为什么多轮对话的效果就一定差呢?有几个原因:1.LLM在前几轮的对话中(可能用户还在挤牙膏式表达完整需求)联想自行幻觉补充了一些信息,因此在输出时产生了幻觉(过早给出完整答案),质量也就变差了。2. 多轮对话的底层逻辑,是把前面对话的上下文全都输入给模型作为新的prompt,这样就导致之前的输出也输入了,放大了输出的噪声,并且增加了token长度,弱化了问题权重。

那么,这个现象的启示是什么呢?

  • 对于模型开发者:建议不仅优化单轮对话能力,更要重视多轮对话中的可靠性,模型应具备更好地整合多轮信息、适时发起澄清、避免过早假设的能力。即在训练和评估中增加对多轮欠规格对话能力的关注,研发更具鲁棒性和可靠性的对话模型。
  • 对于用户:提醒用户尽量在单个对话(prompt)中准确表达需求,或多用重启新对话的策略,避免持续局部纠正导致模型表现退化。

最后,感兴趣的可以看下原文:https://arxiv.org/pdf/2505.06120 感觉还是挺有意思的一篇文章。

http://www.xdnf.cn/news/7656.html

相关文章:

  • 操作系统学习笔记第5章 (竟成)
  • [解决方案] Word转PDF
  • Android SharedPreferences:从零到一的全面解析与实战指南
  • win10使用nginx做简单负载均衡测试
  • 省赛备考~全国青少年信息素养大赛-图形化编程复赛/省赛-模拟题-判断质数合数
  • JavaScript 数组方法详解:全面指南
  • 如何优化前端应用中的JavaScript执行效率?
  • 【LinkedList demo 内部类讲说】
  • BI是什么意思?一文讲清BI的概念与应用!
  • LeetCode-前缀和-和为K的子数组
  • 网络学习中通信方面的相关知识、及再次解读B=2W
  • 如果电路教材这么讲--积分运算电路中反馈电容并联电阻的作用
  • 制造业或跨境电商相关行业三种模式:OEM、ODM、OBM
  • 十大排序算法--快速排序
  • VitePress 中以中文字符结尾的字体加粗 Markdown 格式无法解析
  • 颠覆传统:PROFINET转EthernetIP在油墨生产线的成功应用
  • 小土堆pytorch--神经网路-卷积层池化层
  • 时尚外观+专业性能丨特伦斯V30Pro重新定义便携电子钢琴
  • 深入剖析Zynq AMP模式下CPU1中断响应机制:从原理到创新实践
  • 【八股战神篇】Java虚拟机(JVM)高频面试题
  • Spring Validation校验
  • 吃透 Golang 基础:数据结构之数组
  • 高级SQL技巧:窗口函数与复杂查询优化实战
  • RestFul操作ElasticSearch:索引与文档全攻略
  • 【基于SpringBoot的图书购买系统】深度讲解 分页查询用户信息,分析前后端交互的原理
  • [Java实战] Docker 快速启动 Sentinel 控制台(二十八)
  • 【node.js】核心进阶
  • IP风险画像技术:如何用20+维度数据构建网络安全护城河?
  • 73.矩阵置零
  • 【b站计算机拓荒者】【2025】微信小程序开发教程 - 3 项目目录结构