当前位置：首页 > news >正文

贝叶斯自学笔记——基础工具篇（一）

news 2025/8/31 11:03:36

0、引言

最近想系统的学一下贝叶斯的工具，就开一个专题系统的记录一下学习的路径。废话不多说直接上知识点。

1、信念（Beliefs）

我们首先介绍一下信念这个东西，这个概念在频率里很少被提及。但是他是学习贝叶斯会被提及到的一个概念。我们经常会用概率来表示我们对未知量的刻画。其实信念这个概念和概率差不多，我们在本节的首要任务有两个，一什么信念，二搞清楚概率和信念之间的区别和联系、
在使用数学化的工具介绍信念之前，我们先定义几个集合。假设我们在抛掷一个筛子。

F = {筛子点数小于等于5}
G = {筛子点数小于等于2}
H = {筛子点数为偶数}
下面我们引入信念函数Be(),它可以把 $F, G, H$ 等事件映射成数字，数字越大，表示信念越大。讲到这里我们发现他和概率非常相似。我们给几个具体的描述，来描述信念函数：

如果 $B e (F) > B e (G)$ ，我们说我们更坚定选择F的信念。
如果 $B e (F ∣ H) > B e (G ∣ H)$ ，我们说再增加了H这个规则后，我们更加坚定选择F。
如果 $B e (F ∣ G) > B e (F ∣ H)$ ，如果可以选择一种规则，我们更倾向于在G的规则下相信F。
我们介绍几个信念函数的公理（Axioms, 大部分认为信念函数应该具有的性质）：
A1. $B e (n o t H ∣ H) \leq B e (F ∣ H) \leq B e (H ∣ H)$
A2. $Be(F 或 G|H) ≥ max\{Be(F|H), Be(G|H)\}$
A3. $B e (G ∣ H)$ 和 $B e (F ∣ G 和 H)$ 可以导出 $B e (F 和 G ∣ H)$

A1表示我们在给定H的情况下对F的条件信念，其介于在给定H的条件下完全不相信 $B e (n o t H ∣ H)$ 和完全相信 $B e (H ∣ H)$ 之间。

A2表示我们信念不会随着我们增加可能性集合而减少。

A3有点复杂，怎么推导出F和G如何为真给定H，从H为真出发，你可以先决定G为真，如果是，那么F是否为真给定G和H。就可以得到结论。

我们们给出概率的公理化表示
P1 $0 = P r (n o t H ∣ H) \leq P r (F ∣ H) \leq P r (H ∣ H) = 1$
P2 $P r (F \cup G ∣ H) = P r (F ∣ H) + P r (G ∣ H) 如果 F \cap G = \emptyset$
P3 $P r (F \cap G ∣ H) = P r (G ∣ H) P r (F ∣ G \cap H)$
我们看到如果满足P1-P3一定会满足A1-A3.那么概率可以作为描述信念的一个工具。但是他们又是不同的。
我也找了几篇信念和概率的对比文章，帮助大家进一步了解这个概念。
参考一《趣学贝叶斯统计：量化》
参考二《用数据更新信念——如何用贝叶斯思维理解世界》
其中用数据更新信念——如何用贝叶斯思维理解世界介绍了信念和贝叶斯公式，以及相关的概念。

2、条件独立（Conditionally Independent）

先介绍一下独立的定义。
定义2.1 （独立） 如果 $P(F\cap G |H)=P(F|H)P(G|H)$ ，那么两个事件F和G独立条件独立关于H。
我们应该如何理解（条件）独立性呢。我们通过上述的概率公理P3以及条件独立的定义可以推导出如下的事实
$P r (F ∣ H \cap G) = P r (F ∣ H)$
因此，条件独立性意味着 $P r （ F ∣ H \cap G ） = P r （ F ∣ H ）$ 。换句话说，如果我们知道H为真，并且F和G在给定H的情况下条件独立，那么知道G是否成立不会改变我们对F的信念。

3、一些其他的简单的概念

在介绍一些新的概念之前，读者还应该自学一些概率论与数理统计的知识点，这里由于篇幅原因就不一一详细介绍，读者可以在任何一本概率论与数理统计的教材看到他们。这里列出一些学习清单，如果没有基础的同学可以去自行补充学习。

随机变量的定义和概念。包括常见的离散随机变量（二项分布、泊松分布和负二项分布等）、连续随机变量（正态分布、指数分布、伽马分布和卡方分布等）。
描述分布的工具。均值（mean or expectation，分布的质心）、众数（mode，大多数可能的值）、中位数（median，分布中间的值），分位数（quantiles）。
注：特别是，对于偏态分布（如收入分布），均值可能与“典型”样本值相差甚远。尽管如此，均值仍然是对分布位置的一种非常流行的描述。
在描述对分布离散程度还有一些量，如方差（variance）、散度（ Divergence）、绝对中位差（Median Absolute Deviation, MAD）详情参考《利用 MAD 计算标准差：理论与实践》。
联合分布函数、条件分布和边缘分布。这些是贝叶斯推断的基础，要好好学习。

4、可交换性（Exchangeability）

假设我们被要求为三种不同的结果分配概率：
$P (0, 0, 0, 0, 1, 1, 1, 1, 1, 1) = ?$
$P (0, 1, 0, 1, 0, 1, 0, 1, 0, 0) = ?$
$P (1, 1, 1, 0, 0, 0, 0, 1, 1, 1) = ?$
上述多元分布函数的输入都是6个1和4个0，这些分布的概率是否相等？为了深入讨论这个问题，下面我们给出可交换的定义。

定义4.1 (可交换，Exchangeable) 让 $p(y_1, . . . , y_n)$ 是 $Y_1,..., Y_n$ . 如果对所有的 ${1, . . . , n\}$ 的交换 $π$ 满足 $p(y_1, . . . , y_n) = p(y_{π_1}, . . . , y_{π_n})$ 的联合密度函数。那么 $Y_1, . . . , Y_n$ 是可交换的。
下面我们给出一个重要的声明和证明。

定理4.1 如果 $θ \in p （ θ ）$ 且 $Y_1，... ，Y_n$ 在给定 $θ$ 的条件下独立同分布，则（在 $θ$ 的条件下）， $Y_1，... ，Y_n$ 是可交换的。

证明4.1 假设 $Y_1，...，Y_n$ 在给定某个未知参数 $θ$ 的情况下条件独立同分布。则对 ${1，...，n\}$ 的任意置换 $π$ 和任意值集 $y_1, ...，y_n）$ 请添加图片描述

5、de Finetti’s theorem

在上面的讨论中，尤其是定理4.1的结论，我们发现了 $Y_i, i = 1, ..., n$ 是独立的并且 $\theta \sim p(\theta)$ 可以推出 $Y_i, i = 1, ..., n$是可交换的，那么反过来是否成立，若 $Y_i, i = 1, ..., n$ 是可交换的，能否推出我们的模型成立，那么de Finetti’s theorem就是回答这个问题的。
定理 5.1 对所有的 $\in \{1,2,...\}$ , $Y_i$ 是对于所有的交换 $π$ 是可以换的，即 $p(y_1, . . . , y_n) = p(y_{π_1}, . . . , y_{π_n})$ ，那么我们的模型可以被写成
$p(y_1, . . . , y_n) = \int \{ \prod \limits_{i=0}^n p(y_i|θ)) \} p(θ) dθ.$
其中先验和抽样模型依赖于信念模型的形式 $p(y_1, . . . , y_n)$ 。