当前位置: 首页 > ops >正文

张 关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导;

关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导;

目录

    • 关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导;
      • 一、校准方法:让模型概率更贴近真实正确性
        • 1. **温度缩放(Temperature Scaling)**
        • 2. **多校准(Multicalibration)**
      • 二、不确定性估计:量化模型“不知道”的能力
        • 1. **语义熵(Semantic Entropy)**
        • 2. **图不确定性(Graph Uncertainty)**
      • 三、推理优化:通过过程增强置信度
        • 1. **自一致性(Self-Consistency)**
        • 2. **事实与反思(Fact-and-Reflection, FaR)**
      • 四、检索增强:引入外部知识校准
        • 1. **检索增强生成(RAG)与置信度对齐**
      • 五、黑盒引导:无需模型内部信息的置信度估计
        • 1. **引导置信度(SteerConf)**
      • 六、后验校准:基于反馈修正置信度
        • 1. **证据深度学习(EDL)与信息瓶颈**
      • 总结:置信度研究的三大趋势

一、校准方法:让模型概率更贴近真实正确性

1. 温度缩放(Temperature Scaling)
  • 论文:《On Calibration of Modern Neural Networks》(Guo et al., 2017)
    原理:LLM输出的概率分布常因模型过参数化而“过于尖锐”(高概率答案实际正确率低)。温度缩放通过调整Softmax函数的温度参数 T T T),软化概率分布,使概率值更符合实际正确性。公式为:
http://www.xdnf.cn/news/15742.html

相关文章:

  • 微服务学习(六)之分布式事务
  • 商业秘密的法律属性与保护路径探析
  • LeetCode 322. 零钱兑换 LeetCode 279.完全平方数 LeetCode 139.单词拆分 多重背包基础 56. 携带矿石资源
  • 【Docker基础】深入解析Docker-compose核心配置:Services服务配置详解
  • 【学习记录】智能客服小桃(进度更新ing)
  • Elastic Search 8.x 分片和常见性能优化
  • UniApp 自定义导航栏:解决安全区域适配问题的完整实践
  • 当OT遇见IT:Apache IoTDB如何用“时序空间一体化“破解工业物联网数据孤岛困局
  • 【黄山派-SF32LB52】—硬件原理图学习笔记
  • NLP中情感分析与观念分析、价值判断、意图识别的区别与联系,以及四者在实际应用中的协同
  • 疯狂星期四文案网第12天运营日报
  • 最少标记点问题:贪心算法解析
  • RabbitMQ面试精讲 Day 3:Exchange类型与路由策略详解
  • Astro:前端性能革命!从原生 HTML 到 Astro + React 的升级指南
  • Java机考题:815. 公交路线 图论BFS
  • 消息队列与信号量:System V 进程间通信的基础
  • P1816 忠诚 题解
  • Flutter基础(前端教程①④-data.map和assignAll和fromJson和toList)
  • 使用C#对象将WinRiver项目文件进行复杂的XML序列化和反序列化实例详解
  • 多模态交互视角下生成式人工智能在中小学探究式学习中的认知支架效能研究
  • 立创EDA中双层PCB叠层分析
  • 锂电池生产过程图解
  • 【OD机试】停车场收费
  • 暑假训练七
  • 【52】MFC入门到精通——(CComboBox)下拉框选项顺序与初始化不一致,默认显示项也不一致
  • Three.js与AIGC的化学反应:AI生成3D模型在实时渲染中的优化方案
  • Weavefox 图片 1 比 1 生成前端源代码
  • 基于Electron打包jar成Windows应用程序
  • LangGraph教程6:LangGraph工作流人机交互
  • [MySQL基础3] 数据控制语言DCL和MySQL中的常用函数