当前位置: 首页 > news >正文

贝叶斯自学笔记——基础工具篇(一)

目录

  • 0、引言
  • 1、信念(Beliefs)
  • 2、条件独立(Conditionally Independent)
  • 3、一些其他的简单的概念
  • 4、可交换性(Exchangeability)
  • 5、de Finetti’s theorem
  • 6、写在最后的话

0、引言

最近想系统的学一下贝叶斯的工具,就开一个专题系统的记录一下学习的路径。废话不多说直接上知识点。

1、信念(Beliefs)

我们首先介绍一下信念这个东西,这个概念在频率里很少被提及。但是他是学习贝叶斯会被提及到的一个概念。我们经常会用概率来表示我们对未知量的刻画。其实信念这个概念和概率差不多,我们在本节的首要任务有两个,一什么信念,二搞清楚概率和信念之间的区别和联系、
在使用数学化的工具介绍信念之前,我们先定义几个集合。假设我们在抛掷一个筛子。

  • F = {筛子点数小于等于5}
  • G = {筛子点数小于等于2}
  • H = {筛子点数为偶数}
    下面我们引入信念函数Be(),它可以把 F , G , H F, G, H F,G,H等事件映射成数字,数字越大,表示信念越大。讲到这里我们发现他和概率非常相似。我们给几个具体的描述,来描述信念函数:
  1. 如果 B e ( F ) > B e ( G ) Be(F)>Be(G) Be(F)>Be(G),我们说我们更坚定选择F的信念。
  2. 如果 B e ( F ∣ H ) > B e ( G ∣ H ) Be(F|H)>Be(G|H) Be(FH)>Be(GH),我们说再增加了H这个规则后,我们更加坚定选择F。
  3. 如果 B e ( F ∣ G ) > B e ( F ∣ H ) Be(F|G)>Be(F|H) Be(FG)>Be(FH),如果可以选择一种规则,我们更倾向于在G的规则下相信F。
    我们介绍几个信念函数的公理(Axioms, 大部分认为信念函数应该具有的性质):
    A1. B e ( n o t H ∣ H ) ≤ B e ( F ∣ H ) ≤ B e ( H ∣ H ) Be(not H|H) ≤ Be(F|H) ≤ Be(H|H) Be(notHH)Be(FH)Be(HH)
    A2. B e ( F 或 G ∣ H ) ≥ m a x { B e ( F ∣ H ) , B e ( G ∣ H ) } Be(F 或 G|H) ≥ max\{Be(F|H), Be(G|H)\} Be(FGH)max{Be(FH),Be(GH)}
    A3. B e ( G ∣ H ) Be(G|H) Be(GH) B e ( F ∣ G 和 H ) Be(F|G 和 H) Be(FGH)可以导出 B e ( F 和 G ∣ H ) Be(F 和 G|H) Be(FGH)

A1表示我们在给定H的情况下对F的条件信念,其介于在给定H的条件下完全不相信 B e ( n o t H ∣ H ) Be(not H|H) Be(notHH)和完全相信 B e ( H ∣ H ) Be(H| H) Be(HH)之间。

A2表示我们信念不会随着我们增加可能性集合而减少。

A3有点复杂,怎么推导出F和G如何为真给定H,从H为真出发,你可以先决定G为真,如果是,那么F是否为真给定G和H。就可以得到结论。

我们们给出概率的公理化表示
P1 0 = P r ( n o t H ∣ H ) ≤ P r ( F ∣ H ) ≤ P r ( H ∣ H ) = 1 0 = Pr(not H|H) ≤ Pr(F|H) ≤ Pr(H|H) = 1 0=Pr(notHH)Pr(FH)Pr(HH)=1
P2 P r ( F ∪ G ∣ H ) = P r ( F ∣ H ) + P r ( G ∣ H ) 如果 F ∩ G = ∅ Pr(F ∪ G|H) = Pr(F|H) + Pr(G|H) 如果 F ∩ G = ∅ Pr(FGH)=Pr(FH)+Pr(GH)如果FG=
P3 P r ( F ∩ G ∣ H ) = P r ( G ∣ H ) P r ( F ∣ G ∩ H ) Pr(F ∩ G|H) = Pr(G|H) Pr(F|G ∩ H) Pr(FGH)=Pr(GH)Pr(FGH)
我们看到如果满足P1-P3一定会满足A1-A3.那么概率可以作为描述信念的一个工具。但是他们又是不同的。
我也找了几篇信念和概率的对比文章,帮助大家进一步了解这个概念。
参考一《趣学贝叶斯统计:量化》
参考二《用数据更新信念——如何用贝叶斯思维理解世界》
其中用数据更新信念——如何用贝叶斯思维理解世界介绍了信念和贝叶斯公式,以及相关的概念。

2、条件独立(Conditionally Independent)

先介绍一下独立的定义。
定义2.1 (独立) 如果 P ( F ∩ G ∣ H ) = P ( F ∣ H ) P ( G ∣ H ) P(F\cap G |H)=P(F|H)P(G|H) P(FGH)=P(FH)P(GH),那么两个事件F和G独立条件独立关于H。
我们应该如何理解(条件)独立性呢。我们通过上述的概率公理P3以及条件独立的定义可以推导出如下的事实
P r ( F ∣ H ∩ G ) = P r ( F ∣ H ) Pr(F|H ∩ G) = Pr(F|H) Pr(FHG)=Pr(FH)
因此,条件独立性意味着 P r ( F ∣ H ∩ G ) = P r ( F ∣ H ) Pr(F| H ∩ G)= Pr(F| H) PrFHG=PrFH。换句话说,如果我们知道H为真,并且F和G在给定H的情况下条件独立,那么知道G是否成立不会改变我们对F的信念。

3、一些其他的简单的概念

在介绍一些新的概念之前,读者还应该自学一些概率论与数理统计的知识点,这里由于篇幅原因就不一一详细介绍,读者可以在任何一本概率论与数理统计的教材看到他们。这里列出一些学习清单,如果没有基础的同学可以去自行补充学习。

  1. 随机变量的定义和概念。包括常见的离散随机变量(二项分布、泊松分布和负二项分布等)、连续随机变量(正态分布、指数分布、伽马分布和卡方分布等)。
  2. 描述分布的工具。均值(mean or expectation,分布的质心)、众数(mode,大多数可能的值)、中位数(median,分布中间的值),分位数(quantiles)。
    注:特别是,对于偏态分布(如收入分布),均值可能与“典型”样本值相差甚远。尽管如此,均值仍然是对分布位置的一种非常流行的描述。
  3. 在描述对分布离散程度还有一些量,如方差(variance)、散度( Divergence)、绝对中位差(Median Absolute Deviation, MAD)详情参考《利用 MAD 计算标准差:理论与实践》。
  4. 联合分布函数、条件分布和边缘分布。这些是贝叶斯推断的基础,要好好学习。

4、可交换性(Exchangeability)

假设我们被要求为三种不同的结果分配概率:
P ( 0 , 0 , 0 , 0 , 1 , 1 , 1 , 1 , 1 , 1 ) = ? P(0,0,0,0,1,1,1,1,1,1)=? P(0,0,0,0,1,1,1,1,1,1)=?
P ( 0 , 1 , 0 , 1 , 0 , 1 , 0 , 1 , 0 , 0 ) = ? P(0,1,0,1,0,1,0,1,0,0)=? P(0,1,0,1,0,1,0,1,0,0)=?
P ( 1 , 1 , 1 , 0 , 0 , 0 , 0 , 1 , 1 , 1 ) = ? P(1,1,1,0,0,0,0,1,1,1)=? P(1,1,1,0,0,0,0,1,1,1)=?
上述多元分布函数的输入都是6个1和4个0,这些分布的概率是否相等?为了深入讨论这个问题,下面我们给出可交换的定义。

定义4.1 (可交换,Exchangeable) 让 p ( y 1 , . . . , y n ) p(y_1, . . . , y_n) p(y1,...,yn) Y 1 , . . . , Y n Y_1,..., Y_n Y1,...,Yn. 如果对所有的 { 1 , . . . , n } \{1, . . . , n\} {1,...,n} 的交换 π π π 满足 p ( y 1 , . . . , y n ) = p ( y π 1 , . . . , y π n ) p(y_1, . . . , y_n) = p(y_{π_1}, . . . , y_{π_n}) p(y1,...,yn)=p(yπ1,...,yπn) 的联合密度函数。那么 Y 1 , . . . , Y n Y_1, . . . , Y_n Y1,...,Yn 是可交换的。
下面我们给出一个重要的声明和证明。

定理4.1 如果 θ ∈ p ( θ ) θ ∈ p(θ) θpθ Y 1 , . . . , Y n Y_1,... ,Y_n Y1...Yn 在给定 θ θ θ的条件下独立同分布,则(在 θ θ θ的条件下), Y 1 , . . . , Y n Y_1,... ,Y_n Y1...Yn 是可交换的。

证明4.1 假设 Y 1 , . . . , Y n Y_1,...,Y_n Y1...Yn 在给定某个未知参数 θ θ θ 的情况下条件独立同分布。则对 { 1 , . . . , n } \{1,...,n\} {1...n} 的任意置换 π π π 和任意值集 ( y 1 , . . . , y n ) (y_1, ...,y_n) y1,...yn请添加图片描述

5、de Finetti’s theorem

在上面的讨论中,尤其是定理4.1的结论,我们发现了 Y i , i = 1 , . . . , n Y_i, i = 1, ..., n Yi,i=1,...,n是独立的并且 θ ∼ p ( θ ) \theta \sim p(\theta) θp(θ)可以推出 $Y_i, i = 1, ..., n$是可交换的,那么反过来是否成立,若 Y i , i = 1 , . . . , n Y_i, i = 1, ..., n Yi,i=1,...,n是可交换的 ,能否推出我们的模型成立,那么de Finetti’s theorem就是回答这个问题的。
定理 5.1 对所有的 i ∈ { 1 , 2 , . . . } i \in \{1,2,...\} i{1,2,...}, Y i Y_i Yi是对于所有的交换 π π π 是可以换的,即 p ( y 1 , . . . , y n ) = p ( y π 1 , . . . , y π n ) p(y_1, . . . , y_n) = p(y_{π_1}, . . . , y_{π_n}) p(y1,...,yn)=p(yπ1,...,yπn),那么我们的模型可以被写成
p ( y 1 , . . . , y n ) = ∫ { ∏ i = 0 n p ( y i ∣ θ ) ) } p ( θ ) d θ . p(y_1, . . . , y_n) = \int \{ \prod \limits_{i=0}^n p(y_i|θ)) \} p(θ) dθ. p(y1,...,yn)={i=0np(yiθ))}p(θ)dθ.
其中先验和抽样模型依赖于信念模型的形式 p ( y 1 , . . . , y n ) p(y_1, . . . , y_n) p(y1,...,yn)

6、写在最后的话

今天的学习到此结束,明天我们将学习贝叶斯估计的单参数模型。

http://www.xdnf.cn/news/1073845.html

相关文章:

  • Python爬虫实战:研究Bleach库相关技术
  • 【linux】权限深入解析
  • [分布式并行] 流水线并行 PP(NaivePP/GPipe/F-then-B/PipeDream/1F1B)
  • #华为鲲鹏#华为计算#鲲鹏开发者计划2025#
  • 概率论符号和公式整理
  • 大模型小模型选型手册:开源闭源、国内国外全方位对比
  • 团结引擎发布纯鸿蒙应用
  • 微信小程序接入腾讯云短信验证码流程
  • python 使用 pyenv 管理 python 版本
  • 从代码学习深度学习 - 自然语言推断:使用注意力 PyTorch版
  • 基于Servlet + Jsp 的在线考试系统
  • 华为云Flexus+DeepSeek征文 | 华为云 ModelArts Studio 赋能高情商AI聊天助手:用技术构建有温度的智能对话体验
  • libevent(2)之使用教程(1)介绍
  • 基于云的平板挠度模拟:动画与建模-AI云计算数值分析和代码验证
  • 多模态大语言模型arxiv论文略读(143)
  • 广度优先搜索BFS(广搜)复习(c++)
  • 深入理解Mysql索引底层数据结构和算法
  • NeRF-Lidar实景重建:大疆Mavic 4 Pro低成本建模方案(2025实战指南)
  • H3C-路由器DHCPV6V4配置标准
  • C++基础(FreeRDP编译)
  • SRS流媒体服务器之本地测试rtc推流bug
  • Python 数据分析:numpy,抽提,整数数组索引。听故事学知识点怎么这么容易?
  • 第八讲——一元函数积分学的概念与性质
  • 【编译原理】期末
  • 设备树引入
  • 【Java--SQL】${}与#{}区别和危害
  • 【EDA软件】【联合Modelsim 同步FIFO仿真】
  • git 挑选:git cherry-pick
  • springboot+Vue逍遥大药房管理系统
  • python中学物理实验模拟:瞬间推力与摩擦力作用下的物体运动