当前位置: 首页 > ai >正文

深入简出:KL散度、交叉熵、熵、信息量简介、交叉熵损失

学习这些的最终目的

1、量化两个概率分布的差异

2、推导交叉熵损失

一、KL散度

KL散度就是用来量化两个概论分布的差异,如何量化?

计算真实概论分布P信息量估计概论分布为Q,但实际概率分布为P信息量的差值

那么设,概率分布为P时的信息量为H(P),估计概论分布为Q,但实际概率分布为q时的信息量为H(P,Q)

那么两个概率分布差异的量化为:D(P,Q) = H(P) - H(P,Q),注意D(P,Q) 不等于 D(Q,P)

Q估计P的信息量可以用交叉熵(H(P,Q))来计算,P本身信息量可以用熵(H(P))来计算

二、交叉熵

交叉熵是用于,使用“估计分布”下,对真实分布的期望信息量估计

如何估计?

设,每个事件,真实发生概率为pi = x,对应的估计事件的信息量为Ii

那么交叉熵H(P,Q) = \sumpi * Ii,就是用每个事件真实的概率 乘上 估计概率分布对应事件的信息量代表估计概率分布q对真实概率分布q的期望信息量估计

三、熵

熵表示一个概率分布下的期望信息量

设,每个事件,真实发生概率为pi = x,对应的事件的信息量为Ii

H(P) = \sumpi * Ii

到此,我们可以发现,如果估计概率分布和真实概率分布一致,那么D(P,Q)应该为0

四、信息量

现在只差如何定义信息量了

在信息论中,某个事件的信息量(self-information)定义为

I(x)=log(\frac{1}{p(x)}),p为事件x发生的概率,即事件发生的概率越低,它带来的信息量越大

下图是I(X)的函数图像,x属于[0,1],I属于[0,+00]

举个例子来说

小明不中彩票,带来的信息量很小,因为这是很正常的一件事

但如果小明中了彩票,就带来了较大的信息量,因为这是小概率事件

五、交叉熵损失

对于模型的预测,以分类为例,模型会给出每个类别的概率,可以认为是概率分布Q,真实分布为P,那么P和Q差异的量化就是D(P,Q),对D(P,Q)求梯度,就得到了交叉熵损失

六、结语

表述可能不准确,大家意会

http://www.xdnf.cn/news/204.html

相关文章:

  • Spring Boot自动配置原理深度解析:从条件注解到spring.factories
  • FFmpeg 硬核指南:从底层架构到播放器全链路开发实战 基础
  • Animated Raindrop Ripples In HLSL
  • 关于使用webpack构建的vue项目,如何使用windicss
  • Superduper - 在数据上构建端到端AI工作流和应用
  • Java面试中问单例模式如何回答
  • 我的gittee仓库
  • LLaMA Factory多模态微调实践:微调Qwen2-VL构建文旅大模型
  • 【国家能源集团生态协作平台-注册/登录安全分析报告】
  • 操作系统 第四章 文件管理
  • 施磊老师基于muduo网络库的集群聊天服务器(二)
  • 十天借助 Trae 实现 “幸运塔塔屋” 小程序时光记忆功能之旅
  • Xcode16 调整 Provisioning Profiles 目录导致证书查不到
  • 多模态记忆融合:基于LSTM的连续场景生成——突破AI视频生成长度限制
  • Orgin为柱状图加趋势线
  • 零基础上手Python数据分析 (17):[案例实战] 电商销售数据分析 - 从数据到洞察的全流程演练
  • Docker容器虚拟化存储架构
  • 关于EXPLAIN ANALYZE 工具的解析及使用方法(AI)
  • 《深入探秘JavaScript原型链与继承机制:解锁前端编程的核心密码》
  • 【python报错解决训练】
  • 阿里云镜像加速仅支持阿里云产品了
  • ChatUI vs Ant Design X 技术选型对比
  • MODBUS TCP 转 CANOpen
  • Kaggle-Bag of Words Meets Bags of Popcorn-(二分类+NLP+Bert模型)
  • Mac 选择下载安装工具 x86 还是 arm64 ?
  • gl-matrix 库简介
  • 【java 13天进阶Day06】Map集合,HashMapTreeMap,斗地主、图书管理系统,排序算法
  • 实验2:turtle 库绘制进阶图形
  • Linux服务器配置Anaconda环境、Pytorch库(图文并茂的教程)
  • java基础从入门到上手(九):Java - List、Set、Map