当前位置：首页 > backend >正文

【动手学深度学习】2.6. 概率

backend 2025/6/26 17:36:57

目录

- 2.6. 概率
- - 1）基本概率论
  - 2）处理多个随机变量
  - 3）期望和方差

2.6. 概率

1）基本概率论

一些概念：

抽样（sampling）：从概率分布中抽取样本的过程；
分布（distribution）：类似于对事件概率分配；
多项分布（multionmial distribution）：将概率分配给一些离散选择的分布。
样本空间（sample space）或结果空间（outcome space）：随机实验的所有可能结果构成的集合；
结果（outcome）：样本空间或结果空间中的元素；
事件（event）：一组给定样本空间的随机结果。

（1）概率论公理

概率定义：概率是事件集合到实数的映射函数，事件 A 在样本空间 S 中的概率记为 P(A)。

三大公理（科尔莫戈罗夫, 1933）：

非负性：对任意事件 A，恒有 P(A) >= 0；
规范性：整个样本空间概率为 1，即 P(S) = 1
可列可加性：对任意可数个互斥事件序列 $A_1, A_2, \ldots$ （满足 $\neq j$ 时 $A_i \cap A_j = \emptyset$ ）： $P\left( \bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i)$

（2）随机变量

随机变量定义：随机变量 X 表示随机实验的可能结果（如掷骰子样本空间 S = {1,2,3,4,5,6})，事件（如看到数字5）表示为 {X=5}，其概率记为 P(X=5)。

概率表示简化：

P(X) 表示 X 的概率分布（所有取值的概率集合）；
P(a) 是取值 a 的概率的简写形式；
范围概率如 P(1 <= X <= 3) 表示 X 取 {1,2,3} 的概率。

离散与连续随机变量：

离散（discrete）随机变量：取值可枚举（如骰子点数），可直接计算单点概率（如 P(X=1) > 0）；
连续（continuous）随机变量：取值不可枚举（如身高），单点概率恒为0（如 P(身高 = 1.80) = 0) ，需用概率密度描述区间概率（如 P(1.79 <= 身高 <= 1.81) > 0）。

.

2）处理多个随机变量

当我们处理多个随机变量时，会有若干个变量是我们感兴趣的。我们可以使用联合分布、条件分布、Bayes定理、边缘化和独立性假设来分析多个随机变量。

（1）联合概率（joint probability）：

事件一起发生的概率；
表示为 P(A=a, B=b) ：是A=a和B=b同时发生的概率。

（2）条件概率（conditional probability）：

在已知一个事件发生的情况下，另一个事件发生的概率；
表示为 $\leq P(B=b|A=a) = \frac{P(A=a, B=b)}{P(A=a)} \leq 1$ ：是A=a发生的情况下，B=b的概率。

（3）贝叶斯定理（Bayes’ theorem）：

由联合概率和条件概率可得，贝叶斯定理为 $\mid B) = \frac{P(B \mid A) P(A)}{P(B)}$ ；
其中，P(A,B) 是一个联合分布（joint distribution），P(A | B) 是一个条件分布（conditional distribution）。

（4）边际化（marginalization）：

边际化：即对进行事件概率求和；
公式： $\sum_{A} P(A, B)$ ；
边际化结果的概率或分布称为边际概率（marginal probability）或边际分布（marginal distribution）

（5）独立性（independence）

两个事件的发生无关，表示为 $\perp B$ ;
两个随机变量是独立的，则其联合分布是其各自分布的乘积，即，由 $\mid B) = \frac{P(A, B)}{P(B)} = P(A) \ \ 等价于\ \ P(A, B) = P(A)P(B)$ ;
同样地，给定随机变量C，两个随机变量A和B是条件独立的（conditionally independent），当且仅当 P(A, B | C) = P(A | C) P(B | C)。这个情况表示为 $\perp B\ |\ C$ 。

.

3）期望和方差

随机变量X的期望（expectation）或 平均值（average）：

$\sum_{x} x P(X = x)$

当函数 f(x) 的输入是从分布 P 中抽取的随机变量时，f(x) 的期望值为：

$E_{x \sim P}[f(x)] = \sum_x f(x) P(x)$

有时，我们想衡量随机变量与其期望值的偏置。这可以通过方差来量化：

$\mathrm{Var}[X] = E\left[(X - E[X])^2\right] = E[X^2] - E[X]^2$

方差的平方根被称为 标准差（standard deviation）。

随机变量函数的方差衡量的是：当从该随机变量分布中采样不同值时，函数值偏离该函数的期望的程度：

$\mathrm{Var}[f(x)] = E\left[\left(f(x) - E[f(x)]\right)^2\right]$

.

声明：资源可能存在第三方来源，若有侵权请联系删除！

http://www.xdnf.cn/news/12507.html

相关文章：

VTK 显示文字、图片及2D/3D图

rocketmq 之 DLeger集群，启动ACL 1.0，集成rocektmq-mqtt实践

pe文件结构（TLS）

window安装docker\docker-compose

每日算法刷题Day24 6.6:leetcode二分答案2道题，用时1h(下次计时20min没写出来直接看题解，节省时间)

Java线程卡死问题定位

商业卫星推进与控制系统电源芯片的国产替代研究

智谱清言沉思智能体，天工智能体，agenticSeek等AI Agent测试记录

黄晓明新剧《潜渊》定档失忆三面间谍开启谍战新维度

一些免费的大A数据接口库

LLaMA-Factory的5种推理方式总结

使用vtk8.2.0加载dicom图像

界面开发框架DevExpress XAF实践：集成.NET Aspire后如何实现数据库依赖？

【AUTOSAR COM】E2E的不同profiles的含义以及应用

批量文件改名具体操作方案

USB扩展器与USB服务器的2个主要区别

机器人编程界面

CMake 为 Debug 版本的库或可执行文件添加 d 后缀

第五讲——一元函数微分学的几何应用

飞马LiDAR500雷达数据预处理

LLMControlsArm开源程序是DeepSeek 控制熊猫机械臂

Python基础语法全解：从入门到精通的简明指南

初始结构体，整型提升及操作符的属性

RockyLinux9.6搭建k8s集群

一键编译包含多个独立模块和应用的工程(linux cmake)

单片机0-10V电压输出电路分享

微信小程序动态效果实战指南：从悬浮云朵到丝滑列表加载

JVM——打开JVM后门的钥匙：反射机制

408第一季 - 数据结构 - 数组和特殊矩阵

代码安全规范1.1