当前位置: 首页 > news >正文

【AI论文】作为评判者的感知代理:评估大型语言模型中的高阶社会认知

摘要:评估大型语言模型(LLM)对人类的理解程度,而不仅仅是文本,仍然是一个开放的挑战。 为了弥合这一差距,我们引入了Sentient Agent作为评判者(SAGE),这是一个自动评估框架,用于衡量LLM的高阶社会认知。 SAGE实例化了一个感知代理,该代理在交互过程中模拟了类似人类的情绪变化和内心想法,从而在多轮对话中为测试模型提供了更真实的评估。 在每个转折点,代理都会推理(i)它的情绪如何变化,(ii)它的感受如何,以及(iii)它应该如何回复,从而产生一个数字情绪轨迹和可解释的内心想法。 在100个支持对话场景的实验中,最终的情感得分与巴雷特-伦纳德关系量表(BLRI)的评分和话语层面的同理心指标密切相关,验证了心理保真度。 我们还建立了一个公共感知排行榜,涵盖了18个商业和开源模型,揭示了前沿系统(GPT-4o-Latest,Gemini2.5-Pro)与早期基线之间的巨大差距(高达4倍),这些差距在传统的排行榜(如Arena)中没有反映出来。 因此,SAGE提供了一个有原则、可扩展和可解释的工具,用于跟踪真正善解人意、社交能力强的语言代理的进展。Huggingface链接:Paper page,论文链接:2505.02847

研究背景和目的

研究背景

随着人工智能技术的飞速发展,大型语言模型(LLMs)在自然语言处理领域取得了显著的成就。这些模型不仅能够生成连贯、语法正确的文本,还在许多复杂任务中展现出了强大的能力,如文本摘要、机器翻译、问答系统等。然而,尽管LLMs在文本生成和语言理解方面表现出色,但它们在理解和模拟人类社会认知方面的能力仍然有限。

社会认知是指个体理解他人情感、意图、信念以及社会规范的能力。在人机交互中,社会认知能力尤为重要,因为它直接影响到用户体验和模型的实用性。例如,在情感支持对话、心理咨询、教育辅导等场景中,用户期望模型能够展现出同理心、理解他们的情感状态,并提供恰当的回应。然而,现有的LLMs评估方法主要集中于任务导向的实用性、流畅性和事实性,往往忽视了模型在社交互动中的关系质量和情感理解能力。

为了更全面地评估LLMs的社会认知能力,研究人员开始探索新的评估方法。近年来,“LLM作为法官”(LLM-as-a-Judge)的评估范式逐渐兴起,该范式利用LLM本身作为评估工具,通过静态提示或有限轮次的对话来评估生成文本的质量。然而,这些方法存在局限性,因为它们无法适应对话的动态发展,也无法跟踪用户情感状态的变化。因此,需要一种能够模拟人类情感变化和内心想法,并在多轮对话中提供更真实评估的框架。

研究目的

本研究旨在提出一种名为“感知代理作为法官”(Sentient Agent as a Judge, SAGE)的自动化评估框架,用于衡量LLMs在高阶社会认知方面的能力。SAGE框架通过实例化一个感知代理(Sentient Agent),该代理在交互过程中模拟人类的情感变化和内心想法,从而在多轮对话中为被评估的LLM提供更真实的评估。具体研究目的包括:

  1. 开发自动化评估框架:构建一个能够模拟人类情感变化和内心想法的感知代理,用于在多轮对话中评估LLMs的社会认知能力。
  2. 验证评估有效性:通过实验验证SAGE框架的有效性,确保其评估结果与人类的情感理解和同理心指标密切相关。
  3. 建立感知排行榜:基于SAGE框架,建立一个公开的感知排行榜,覆盖多种商业和开源LLMs,以揭示不同模型在社会认知能力方面的差距。
  4. 推动语言代理发展:通过提供一种有原则、可扩展和可解释的评估工具,促进真正善解人意、社交能力强的语言代理的发展。

研究方法

感知代理设计

SAGE框架的核心是感知代理的设计。感知代理通过模拟人类的情感变化和内心想法,在多轮对话中为被评估的LLM提供评估。具体设计包括:

  1. 因素组合:每个感知代理由四个核心因素组成:角色(persona)、对话背景(dialogue background)、整体对话目标(dialogue goal)和隐藏意图(hidden intention)。这些因素共同捕捉了影响人类对话行为的意识和潜意识元素。
  2. 情感推理:在交互过程中,感知代理通过多跳推理来模拟情感变化。它回答一系列原则性问题,如“对方在表达什么?”“对方的回复是否符合我的对话目标和隐藏意图?”“基于角色、上下文和分析,我应该如何解读对方的回复?我的具体情感反应是什么?”“基于角色、上下文和分析,我的情感如何变化?”。
  3. 回应推理:在模拟情感变化后,感知代理通过另一系列多跳推理来推导出最合理的回应行动。它考虑情感内心想法、当前情感、隐藏意图等因素,决定回应的态度、目标、语气和风格,并生成回应内容。
动态评估环境构建

为了全面评估LLMs的社会认知能力,SAGE框架构建了动态评估环境。具体方法包括:

  1. 多样化角色生成:使用多种种子池生成多样化的角色,包括特征关键词、朋友聊天时可能说的话和角色年龄等。基于这些种子信息,要求基础LLM生成角色档案。
  2. 多样化对话场景生成:定义对话场景由背景事件、角色发起对话的主要目标和隐藏意图三个关键因素组成。使用主题种子池和隐藏意图种子池生成详细的背景描述,并预定义角色在不同回应下的潜在情感反应规则。
  3. 特定任务制定:在情感支持对话场景中,实例化感知代理作为法官框架,以评估代理在情感支持对话中的能力。
实验设置与评估指标

为了验证SAGE框架的有效性,本研究进行了广泛的实验。具体设置和评估指标包括:

  1. 被评估LLMs选择:选择了来自四个主要家族的八个代表性LLMs进行评估,包括OpenAI的GPT-4o和o1,DeepSeek的DeepSeek-V3和DeepSeek-R1等。
  2. 支持性对话场景构建:构建了100个支持性对话场景,涵盖8个不同的话题,以全面评估LLMs的高阶社会认知能力。
  3. 评估指标:使用感知情感得分作为主要评估指标,该得分由感知代理在对话结束时的最终情感得分表示。此外,还分析了情感得分与巴雷特-伦纳德关系量表(BLRI)评分和话语层面同理心指标之间的相关性。

研究结果

评估有效性验证

实验结果表明,感知情感得分与巴雷特-伦纳德关系量表(BLRI)评分和话语层面同理心指标之间存在显著相关性。具体来说,在支持性对话场景中,最终感知情感得分与BLRI评分之间的皮尔逊相关系数为0.82,与话语层面同理心指标之间的相关系数为0.79。这表明SAGE框架能够有效地捕捉LLMs在情感理解和同理心方面的表现。

感知排行榜结果

基于SAGE框架,本研究建立了一个公开的感知排行榜,覆盖了18个商业和开源LLMs。排行榜结果显示,前沿系统(如GPT-4o-Latest和Gemini2.5-Pro)在社会认知能力方面显著优于早期基线模型。具体来说,GPT-4o-Latest在感知排行榜上名列前茅,其感知情感得分高达79.9,而一些早期基线模型的得分则低于40。这一结果揭示了不同LLMs在社会认知能力方面的显著差距,并强调了SAGE框架在评估LLMs高阶社会认知能力方面的有效性。

社交认知坐标分析

为了进一步区分被评估LLMs的交互风格,本研究提出了社交认知坐标概念。该坐标将LLMs的交互焦点从同理心导向(上)到解决方案导向(下),交互风格从结构化(左)到创造性(右)进行划分。通过分析LLMs在支持性对话中的表现,将它们映射到社交认知坐标空间中。结果显示,一些前沿LLMs(如GPT-4o-Latest和Gemini2.5-Pro)主要占据结构化、同理心导向的象限,表明它们在情感支持和同理心方面表现出色。而一些其他LLMs则表现出结构化、解决方案导向或创造性、解决方案导向的风格。

研究局限

尽管SAGE框架在评估LLMs高阶社会认知能力方面取得了显著成果,但仍存在一些局限性:

  1. 角色与场景局限性:目前感知代理的角色和对话场景主要基于英语文化背景构建,可能无法充分反映其他文化背景下的社交互动特点。未来研究可以探索如何构建跨文化的感知代理和对话场景,以提高评估的普适性。
  2. 评估指标单一性:本研究主要使用感知情感得分作为评估指标,尽管该指标与人类的情感理解和同理心指标密切相关,但仍可能无法全面反映LLMs的社会认知能力。未来研究可以考虑引入更多评估指标,如对话流畅性、信息准确性等,以提供更全面的评估。
  3. 计算资源需求:SAGE框架需要运行多个感知代理与被评估的LLM进行多轮对话,这可能导致较高的计算资源需求。未来研究可以探索如何优化感知代理的设计和实现方式,以降低计算资源需求并提高评估效率。

未来研究方向

基于SAGE框架的研究成果和局限性分析,未来研究可以关注以下几个方向:

  1. 跨文化评估:探索如何构建跨文化的感知代理和对话场景,以提高SAGE框架在不同文化背景下的普适性和评估准确性。这有助于更全面地评估LLMs在全球范围内的社会认知能力。
  2. 多模态评估:结合文本、语音、面部表情等多模态信息,构建更全面的评估框架。多模态信息可以提供更丰富的上下文线索,有助于更准确地评估LLMs在社交互动中的表现。
  3. 动态优化评估:研究如何根据被评估LLM的实时表现动态调整感知代理的策略和评估指标,以提供更个性化的评估。这有助于更精确地捕捉LLMs在不同场景下的社会认知能力变化。
  4. 可解释性研究:深入探索SAGE框架中感知代理的决策过程和评估结果的可解释性。通过提供更透明的评估过程和结果解释,有助于增强用户对评估结果的信任度和接受度。
  5. 实际应用探索:将SAGE框架应用于实际场景中,如情感支持机器人、在线教育辅导系统等,以验证其在提升用户体验和模型实用性方面的效果。通过实际应用探索,可以进一步推动SAGE框架的发展和完善。

综上所述,本研究提出的SAGE框架为评估LLMs的高阶社会认知能力提供了一种新的自动化评估方法。通过模拟人类的情感变化和内心想法,并在多轮对话中提供更真实的评估,SAGE框架有助于揭示不同LLMs在社会认知能力方面的差距,并推动真正善解人意、社交能力强的语言代理的发展。未来研究可以进一步探索SAGE框架的跨文化评估、多模态评估、动态优化评估、可解释性研究和实际应用等方面,以不断完善和发展该框架。

http://www.xdnf.cn/news/395803.html

相关文章:

  • 二分查找的理解
  • Object类
  • wordpress自学笔记 第三节 独立站产品和类目的三种展示方式
  • RabbitMQ的工作队列模式和路由模式有什么区别?
  • 2. cef 及 cefcapi
  • 全国青少年信息素养大赛 Python编程挑战赛初赛 内部集训模拟试卷七及详细答案解析
  • Qt开发经验 --- 避坑指南(13)
  • 梦熊联盟:202505基础语法-题解
  • 沐言智语开源Muyan-TTS模型,词错率、语音质量评分都处于开源模型的一线水平,推理速度相当快~
  • Go语言运算符详解
  • No module named ‘xxx’报错原因及解决方式
  • DedeCMS-Develop-5.8.1.13-referer命令注入研究分析 CVE-2024-0002
  • css背景相关
  • 【大模型】解决最新的Dify1.3.1版本 无法基于Ollama成功添加模型
  • 进程间关系与守护进程
  • Quantum convolutional nerual network
  • 责任链模式
  • 苍穹外卖(数据统计–Excel报表)
  • C语言常见的文件操作函数总结
  • 互联网大厂Java求职面试:电商商品推荐系统中的AI技术应用
  • 超标量处理器设计4-分支预测
  • TypeScript 装饰器高级用法详解
  • Kubernetes排错(十四):Pod状态异常排查手册
  • 深入理解 TypeScript 中 unknown 类型:安全性与使用指南
  • 深度学习:系统性学习策略(二)
  • OBS studio 减少音频中的杂音(噪音)
  • LLM初识
  • 【CTF】Linux Shell RCE绕过(bypass)技术总结
  • 【Tools】VScode远程调试linux服务器(打断点可视化界面方式)
  • 【文本数据找重复记录】2021-11-23