当前位置: 首页 > ai >正文

Token-Budget-Aware LLM Reasoning

在这里插入图片描述
在这里插入图片描述
作者发现,当给大模型输入的提示词内,加入思考不超过xxx个token,可以很好的控制模型思考的长度,并且给出正确的答案,但是同时也存在问题。如上图所示:当不断压缩这个上限的时候,模型开始不遵守这个上限,因此我们需要找到一个:模型可以遵守并且可以得到正确答案的思考上限。

在这里插入图片描述
最简单的方法就是二分法,将原始CoT作为右边界,不断的二分,取中点,如果回答正确,并且思维链长度被压缩,就继续下一个二分,直到:模型无法正确回答,或者思维链长度已经不被压缩。

但是问题就在于,这个方法太耗时间,每次都要二分,二分到一个最小上限,作者提出了两种方法:1. TALE- EP和2. TALE- PT

  1. 使用大模型预估问题的思考token上限,然后插入prompt
  2. 用上述二分法构建出来的数据集,微调模型,SFT或者DPO。

结果:
在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/2753.html

相关文章:

  • c网络库libevent的http常用函数的使用(附带源码)
  • 玩玩OCR
  • RPC复习
  • 【MCP Node.js SDK 全栈进阶指南】高级篇(5):MCP之微服务架构
  • 对话式 BI:让数据洞察从“专业门槛”变为“对话本能”
  • 多模态知识图谱与大模型 图解合集(干中学ing)
  • 【机器学习】​碳化硅器件剩余使用寿命稀疏数据深度学习预测
  • matplotlib
  • 阿里云服务器(ECS)基础指南:从入门到核心场景解析​
  • 【网络入侵检测】基于源码分析Suricata的统计模块
  • python裁剪小说封面标题
  • 防洪评价报告编制方法及洪水建模实践技术-防洪评价报告编制方法及洪水建模实践技术
  • 搭建spark yarn模式集群
  • 为什么使用ThreadLocal后要调用remove()方法呢?
  • 9.5/Q1,GBD数据库最新高分文章解读
  • 机器学习-08-时序数据分析预测
  • 在移动应用开发中,如何优化JavaScript的性能
  • 【行业特化篇2】金融行业简历特化指南:合规性要求与风险控制能力的艺术化呈现
  • 用Python做有趣的AI项目 6:AI音乐生成器(LSTM Melody Generator)
  • 在 cmd shell 中执行 metasploit vbs payload
  • OpenAvatarChat要解决UnicodeDecodeError
  • 一文掌握Matplotlib绘图
  • PyQt6基础_QThread
  • 亚马逊如何分析竞品
  • 网工笔记-网络层
  • 软件工程(一):黑盒测试与白盒测试
  • 【浙江大学DeepSeek公开课】人类经验与AI算法的镜像之旅
  • 考研系列-计算机组成原理第七章、输入/输出系统
  • 解锁健康密码:养生的多维智慧
  • 【手册】Linux服务器应急排查实战指南