当前位置: 首页 > backend >正文

【动手学深度学习】2.6. 概率


目录

    • 2.6. 概率
      • 1)基本概率论
      • 2)处理多个随机变量
      • 3)期望和方差


2.6. 概率

1)基本概率论

一些概念:

  • 抽样(sampling):从概率分布中抽取样本的过程;

  • 分布(distribution):类似于对事件概率分配;

  • 多项分布(multionmial distribution):将概率分配给一些离散选择的分布。

  • 样本空间(sample space)或结果空间(outcome space):随机实验的所有可能结果构成的集合;

  • 结果(outcome):样本空间或结果空间中的元素;

  • 事件(event):一组给定样本空间的随机结果。

(1)概率论公理

概率定义:概率是事件集合到实数的映射函数,事件 A 在样本空间 S 中的概率记为 P(A)。

三大公理(科尔莫戈罗夫, 1933):

  • 非负性:对任意事件 A,恒有 P(A) >= 0;

  • 规范性:整个样本空间概率为 1,即 P(S) = 1

  • 可列可加性:对任意可数个互斥事件序列 A 1 , A 2 , … A_1, A_2, \ldots A1,A2,(满足 i ≠ j i \neq j i=j A i ∩ A j = ∅ A_i \cap A_j = \emptyset AiAj=): P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P\left( \bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i) P(i=1Ai)=i=1P(Ai)

(2)随机变量

随机变量定义:随机变量 X 表示随机实验的可能结果(如掷骰子样本空间 S = {1,2,3,4,5,6}),事件(如看到数字5)表示为 {X=5},其概率记为 P(X=5)。

概率表示简化

  • P(X) 表示 X 的概率分布(所有取值的概率集合);

  • P(a) 是取值 a 的概率的简写形式;

  • 范围概率如 P(1 <= X <= 3) 表示 X 取 {1,2,3} 的概率。

离散与连续随机变量

  • 离散(discrete)随机变量:取值可枚举(如骰子点数),可直接计算单点概率(如 P(X=1) > 0);

  • 连续(continuous)随机变量:取值不可枚举(如身高),单点概率恒为0(如 P(身高 = 1.80) = 0) ,需用概率密度描述区间概率(如 P(1.79 <= 身高 <= 1.81) > 0)。

.

2)处理多个随机变量

当我们处理多个随机变量时,会有若干个变量是我们感兴趣的。我们可以使用联合分布、条件分布、Bayes定理、边缘化和独立性假设来分析多个随机变量。

(1)联合概率(joint probability):

  • 事件一起发生的概率;

  • 表示为 P(A=a, B=b) :是A=a和B=b同时发生的概率。

(2)条件概率(conditional probability):

  • 在已知一个事件发生的情况下,另一个事件发生的概率;

  • 表示为 0 ≤ P ( B = b ∣ A = a ) = P ( A = a , B = b ) P ( A = a ) ≤ 1 0 \leq P(B=b|A=a) = \frac{P(A=a, B=b)}{P(A=a)} \leq 1 0P(B=bA=a)=P(A=a)P(A=a,B=b)1:是A=a发生的情况下,B=b的概率。

(3)贝叶斯定理(Bayes’ theorem):

  • 由联合概率和条件概率可得,贝叶斯定理为 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

  • 其中,P(A,B) 是一个联合分布(joint distribution),P(A | B) 是一个条件分布(conditional distribution)。

(4)边际化(marginalization):

  • 边际化:即对进行事件概率求和;

  • 公式: P ( B ) = ∑ A P ( A , B ) P(B) = \sum_{A} P(A, B) P(B)=AP(A,B)

  • 边际化结果的概率或分布称为边际概率(marginal probability) 或边际分布(marginal distribution)

(5)独立性(independence)

  • 两个事件的发生无关,表示为 A ⊥ B A \perp B AB ;

  • 两个随机变量是独立的,则其联合分布是其各自分布的乘积,即,由 P ( A ∣ B ) = P ( A , B ) P ( B ) = P ( A ) 等价于   P ( A , B ) = P ( A ) P ( B ) P(A \mid B) = \frac{P(A, B)}{P(B)} = P(A) \ \ 等价于\ \ P(A, B) = P(A)P(B) P(AB)=P(B)P(A,B)=P(A)  等价于  P(A,B)=P(A)P(B) ;

  • 同样地,给定随机变量C,两个随机变量A和B是条件独立的(conditionally independent), 当且仅当 P(A, B | C) = P(A | C) P(B | C)。这个情况表示为 A ⊥ B ∣ C A \perp B\ |\ C AB  C

.

3)期望和方差

随机变量X的 期望(expectation)或 平均值(average):

  • E [ X ] = ∑ x x P ( X = x ) E[X] = \sum_{x} x P(X = x) E[X]=xxP(X=x)

当函数 f(x) 的输入是从分布 P 中抽取的随机变量时,f(x) 的期望值为:

  • E x ∼ P [ f ( x ) ] = ∑ x f ( x ) P ( x ) E_{x \sim P}[f(x)] = \sum_x f(x) P(x) ExP[f(x)]=xf(x)P(x)

有时,我们想衡量随机变量与其期望值的偏置。这可以通过 方差 来量化:

  • V a r [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 \mathrm{Var}[X] = E\left[(X - E[X])^2\right] = E[X^2] - E[X]^2 Var[X]=E[(XE[X])2]=E[X2]E[X]2

方差的平方根被称为 标准差(standard deviation)。

随机变量函数的方差衡量的是:当从该随机变量分布中采样不同值时, 函数值偏离该函数的期望的程度:

  • V a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] \mathrm{Var}[f(x)] = E\left[\left(f(x) - E[f(x)]\right)^2\right] Var[f(x)]=E[(f(x)E[f(x)])2]

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

http://www.xdnf.cn/news/12507.html

相关文章:

  • VTK 显示文字、图片及2D/3D图
  • rocketmq 之 DLeger集群,启动ACL 1.0,集成rocektmq-mqtt实践
  • pe文件结构(TLS)
  • window安装docker\docker-compose
  • 每日算法刷题Day24 6.6:leetcode二分答案2道题,用时1h(下次计时20min没写出来直接看题解,节省时间)
  • Java线程卡死问题定位
  • 商业卫星推进与控制系统电源芯片的国产替代研究
  • 智谱清言沉思智能体,天工智能体,agenticSeek等AI Agent测试记录
  • 黄晓明新剧《潜渊》定档 失忆三面间谍开启谍战新维度
  • 一些免费的大A数据接口库
  • LLaMA-Factory的5种推理方式总结
  • 使用vtk8.2.0加载dicom图像
  • 界面开发框架DevExpress XAF实践:集成.NET Aspire后如何实现数据库依赖?
  • 【AUTOSAR COM】E2E的不同profiles的含义以及应用
  • 批量文件改名具体操作方案
  • USB扩展器与USB服务器的2个主要区别
  • 机器人编程界面
  • CMake 为 Debug 版本的库或可执行文件添加 d 后缀
  • 第五讲——一元函数微分学的几何应用
  • 飞马LiDAR500雷达数据预处理
  • LLMControlsArm开源程序是DeepSeek 控制熊猫机械臂
  • Python基础语法全解:从入门到精通的简明指南
  • 初始结构体,整型提升及操作符的属性
  • RockyLinux9.6搭建k8s集群
  • 一键编译包含多个独立模块和应用的工程(linux cmake)
  • 单片机0-10V电压输出电路分享
  • 微信小程序动态效果实战指南:从悬浮云朵到丝滑列表加载
  • JVM——打开JVM后门的钥匙:反射机制
  • 408第一季 - 数据结构 - 数组和特殊矩阵
  • 代码安全规范1.1