当前位置: 首页 > ops >正文

最大似然估计:损失函数的底层数学原理

引言

当你第一次看到线性回归时,你是否注意到了作为参数优化关键的损失函数(均方损失),你是否能够理解它的本质和由来。其实,在我第一次接触时,我是感到有些惊讶的,然后试着去强行理解它,而没有想到它的背后其实有一个数学理论作为支撑——最大似然估计。

最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学和机器学习中用于估计模型参数的方法。其核心思想是:在已知观测数据的情况下,寻找使得观测数据出现概率最大的模型参数值。(核心在于概率最大)

似然函数

我们的目的就是把上面的似然函数变成最大。

下面我们将以均方损失和交叉熵损失作为案例进行说明。

均方损失(MSE):对应 “观测噪声服从高斯分布” 的 MLE

概率假设:模型预测误差服从高斯分布

theta是参数,也就是均值和方差。

构建对数似然函数

最大化对数似然 → 最小化 MSE

结论

均方损失是 “假设回归任务的观测噪声服从高斯分布” 时,最大似然估计的等价损失函数(即负对数似然)。

交叉熵损失:对应 “类别标签服从伯努利 / 多项式分布” 的 MLE

交叉熵损失是分类任务(输出为离散类别概率,如判断图像是猫 / 狗 / 鸟)中最常用的损失函数,分为二分类多分类两种形式:

二分类为例(多分类同理,只需将伯努利分布扩展为多项式分布):

概率假设:类别标签服从伯努利分布

这个函数设计地很巧妙。

构建对数似然函数

最大化对数似然 → 最小化交叉熵

多分类的扩展

结论

交叉熵损失是 “假设分类任务的类别标签服从伯努利分布(二分类)或多项式分布(多分类)” 时,最大似然估计的等价损失函数(即负对数似然)。

核心对比:MSE 与交叉熵的 MLE 本质差异

两种损失函数的根本区别源于对 “标签生成过程” 的概率假设不同,而这种假设又由任务类型(回归 / 分类)决定:

损失函数适用任务背后的概率分布假设MLE 关联(等价性)
均方损失(MSE)回归(连续输出)观测噪声~高斯分布最小化 MSE = 最大化高斯分布下的对数似然
交叉熵损失(CE)分类(离散类别)类别标签~伯努利 / 多项式分布最小化 CE = 最大化伯努利 / 多项式分布下的对数似然

怎么说呢?感觉还是很神奇的,损失函数竟然就这么水灵灵的被推导出来了。

http://www.xdnf.cn/news/20231.html

相关文章:

  • 基本数据类型和包装类的区别?
  • 2025年大数据专业人士认证发展路径分析
  • MySQL运维补充
  • 【目录-判断】鸿蒙HarmonyOS开发者基础
  • 敏捷scrum管理实战经验总结
  • 贪心算法应用:化工反应器调度问题详解
  • 【LLIE专题】SIED:看穿0.0001lux的极致黑暗
  • NPU边缘推理识物系统
  • 懒加载的概念
  • 新能源风口正劲,“充电第一股”能链智电为何掉队?
  • 操作系统启动过程详解
  • Coze源码分析-资源库-删除插件-前端源码-核心组件实现
  • 03-生产问题-慢SQL-20250926
  • 机器人控制器开发(导航算法——导航栈关联坐标系)
  • 创客匠人:什么是“好的创始人IP”
  • 2025年本体论:公理与规则的挑战与趋势
  • CentOS系统停服,系统迁移Ubuntu LTS
  • 【CSS,DaisyUI】自定义选取内容的颜色主题
  • Android开发——初步了解AndroidManifest.xml
  • 零基础入门深度学习:从理论到实战,GitHub+开源资源全指南(2025最新版)
  • C++ 条件变量 通知 cv.notify_all() 先释放锁再通知
  • [光学原理与应用-428]:非线性光学 - 为什么要改变光的波长/频率,获得特点波长/频率的光?
  • RocketMQ如何处理消息堆积
  • 云某惠旧案再审可能性与商业创新实践:积分运营的边界与实体商家机遇
  • 【设计模式】 工厂方法模式
  • 【YOLOv11】2.安装Anaconda3
  • 机器人控制器开发(定位算法——map、odom、baselink关联与差异)
  • JavaScript的库简介
  • 离散数学学习指导与习题解析
  • react生命周期,详细版本