当前位置: 首页 > news >正文

狼人杀中的智能策略:解析AI如何理解复杂社交游戏

  想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

想快速掌握自动编程技术吗?叶老师专业培训来啦!这里用Cline把自然语言变代码,再靠DeepSeek生成逻辑严谨、注释清晰的优质代码。叶梓老师视频号上直播分享《用deepseek实现自动编程》限时回放。

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659

在社交推理游戏中,AI的表现逐渐接近人类水平。《Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game》这篇文章通过狼人杀游戏的实验,展示了新的AI方法如何在复杂社交环境中实现高效决策。

理解语言游戏理论

论文受到维特根斯坦语言游戏理论启发,强调语言与行动的统一性。传统方法将决策与语言生成分离,而本文提出的方法让模型通过实际互动学习,更贴近真实社交场景。图1展示了不同语言决策框架的对比,说明了新方法如何将语言、意图和行动整合在一个多智能体环境中。

多智能体KTO方法

研究者提出的“多智能体Kahneman & Tversky优化”(MaKTO)方法,解决了狼人杀中的两个主要挑战:个体行动对游戏结果的微妙影响,以及专家标注数据中决策质量的差异。MaKTO的三大创新点:

  1. 采用KTO算法,无需在线强化学习的复杂训练,也无需成对偏好数据。

  2. 多样化模型池代替自对弈,防止策略固化,提升模型泛化能力。

  3. 分步偏好选择,通过三种方法优化策略。

图2展示了训练过程,包括行为克隆和多智能体KTO训练。模型通过与多种模型互动,学习到更全面的游戏策略。

实验与评估

在9人狼人杀游戏中,MaKTO模型与其他强大基线(如GPT-4o和Claude-3.5)进行了对比评估。表格1显示,MaKTO在与其他模型的对抗中取得了61%的平均胜率,显著优于GPT-4o和两阶段RL智能体。

在人类对抗评估中,MaKTO与14名经验丰富的玩家进行了比赛,平均胜率达到60%,显示出与高水平人类玩家相当的竞技能力。图5展示了在随机比赛中的玩家胜率,MaKTO模型在所有玩家中排名第四,超过了人类玩家的平均胜率。

图6展示了Turing风格的可检测性测试结果。人类玩家试图区分AI和人类玩家时,MaKTO的识别准确率仅为48.9%,低于随机概率,表明其对话风格与人类极为相似,成功通过了这一特殊Turing测试。

跨游戏泛化能力

研究还测试了MaKTO在引入新角色“猎人”的游戏配置中的表现。尽管MaKTO未在包含猎人的游戏设置中训练,但它在新游戏配置中的表现仍优于仅在原始设置上训练的模型。表格6显示,在9人先知-女巫-猎人游戏中,MaKTO取得了更高的平均胜率,证明了其泛化能力。

通过对比MaKTO与基线模型在比赛中的行为,研究发现MaKTO在投票准确性、弃权率等关键指标上均优于基线模型。表格3和表格4分别展示了MaKTO作为村民和狼人时的性能提升,表明其在身份识别和策略运用上更为精准。

https://arxiv.org/pdf/2501.14225

https://reneeye.github.io/MaKTO.html

https://huggingface.co/datasets/ReneeYe/werewolf_game_reasoning

http://www.xdnf.cn/news/204751.html

相关文章:

  • 语音合成之十韵律之美:TTS如何模拟语音的节奏和语调
  • 23种设计模式-行为型模式之中介者模式(Java版本)
  • 第10次:电商项目配置开发环境
  • 初探RAG
  • SQLyog中DELIMITER执行存储过程时出现的前置缩进问题
  • 在 Windows 的终端安装并使用 azd 命令
  • Windows权限与icacls命令详解
  • taro小程序如何实现大文件(视频、图片)后台下载功能?
  • 小结: 接口类型和路由优先级
  • 如何用python脚本把一个表格有4万多条数据分为两个文件表,每个2万条数据?
  • stm32wb55rg (4) 启用usart串口
  • PDM是什么?PDM有什么用?怎么选PDM?2025制造PDM/PLM系统盘点(4000字)
  • 针对信息过载问题的解决方案
  • 【Prometheus-MySQL Exporter安装配置指南,开机自启】
  • uni-app中使用RenderJs 使用原生js
  • 抱佛脚之学SSMSpringMVC数据绑定
  • 微服务学习笔记
  • 时序数据库 TDengine × Perspective:你需要的可视化“加速器”
  • OpenGL ES 3.0 第二章总结:你好,三角形(Hello Triangle)
  • AlDente Pro for Mac电脑 充电限制保护工具 安装教程【简单,轻松上手】
  • 您好,当前系统不允许绑定该店,具体原因您可咨询系统服务商,我们将尽力为您解决
  • DevExpressWinForms-TreeList-设置不可编辑
  • 大数据学习(115)-hive与impala
  • JAVA-使用Apache POI导出数据到Excel,并把每条数据的图片打包成zip附件项
  • 排序算法详解笔记(二)
  • AI大模型:(二)1.4 Qwen2.5-Omni全模态大模型部署
  • 数据结构入门:详解顺序表的实现与操作
  • 前端——CSS1
  • C#里嵌入lua脚本的例子
  • 【3D基础】顶点法线与平面法线在光照与PBR中的区别与影响