当前位置：首页 > ai >正文

【因果推断】（一）知识点介绍

ai 2025/7/15 21:31:43

【因果推断】（一）知识点介绍

一、引子

例子：你想知道运动（因）能否让你工作时更专注（果）。某一周，你坚持每天运动（T=1），工作时专注力较好（Y=1）（事实），但这一周若没运动（T=0），工作时的专注力水平（Y=1/0），是你无法观测的反事实状态（反事实）。此时，工作压力大小、饮食规律与否等因素（混淆因子），可能既影响你是否选择运动，又直接作用于专注力表现，使因果关系的辨析变得模糊。

因果推断的核心，正是通过统计模型或实验设计（如随机对照试验、倾向得分匹配等），剥离混淆因子的干扰，构建 “若未发生原因事件，结果会如何” 的反事实框架。例如，当用分层分析对比相同压力水平下运动与不运动者的专注力差异时，看似清晰的因果链却可能因数据分层维度的选择，陷入辛普森悖论—— 即在整体数据中运动与专注力呈正相关，但若按年龄分层后，各层内可能出现负相关。这是因为年龄作为潜在的强混淆因子，同时影响运动选择（年轻人更易坚持运动）和专注力基线（年轻人本身专注力更强），导致整体关联被虚假放大，而分层后真实关系才得以显现。

而辛普森悖论的出现，本质是对混淆因子的控制不足或过度：当忽略关键分层变量（如年龄）时，因果效应可能被混淆因子 “污染”；而强行控制与因果路径无关的变量（如运动时穿的服装颜色），又可能破坏数据的自然关联结构。因此，因果推断不仅需要数学工具，更依赖对因果机制的理论认知…

二、数学基础

2.1 反事实与因果效应的数学定义

个体因果效应（ITE, Individual Treatment Effect）：
$\text{ITE}_i = Y_i(T) - Y_i(T)$
其中 $Y_i(1)$ 为个体 $i$ 接受干预的潜在结果， $Y_i(0)$ 为未接受干预的潜在结果（反事实）。
平均因果效应（ATE, Average Treatment Effect）：
$\text{ATE} = \mathbb{E}[Y(T) - Y(T)] = \mathbb{E}[Y(T=1)] - \mathbb{E}[Y(T=0)]$
- ATT（干预组平均效应）： $\text{ATT} = \mathbb{E}[Y(1) - Y(0) \mid T=1]$
- ATC（对照组平均效应）： $\text{ATC} = \mathbb{E}[Y(1) - Y(0) \mid T=0]$
  其中ATC实际未接受干预的群体，ATT实际接受干预的群体。

2.2 因果之梯的数学表达

层级	问题类型	形式化表达	核心障碍
相关	关联分析	$\mid X)$	混淆因子（Confounder）
干预	行动结果预测	$\mid \text{do}(X), Z)$	干预分配机制
反事实	个体因果效应	$Y_i(1) - Y_i(0)$	反事实不可观测

关键公式：干预分布与观测分布的差异 $\mid \text{do}(X)) \neq P(Y \mid X) \quad (\text{因混淆因子} Z \text{存在})$

而要验证数学定义，**随机对照试验（RCT）**显然是可以的，但代价昂贵且费时费力，因此可以对已有的观测数据，通过建模进行因果关系的研究。研究流派包括（结构因果模型SCM、潜在结果模型RCM）

2.3 研究流派（SCM、RCM）

Identification（因果识别）：用观测数据，找不同干预下结果的分布，通过分布差异判断因果关系，SCM模型主要干这事儿。
Estimation（因果推断）：根据统计结果，推测没发生的反事实情况，用反事实和观测的差异衡量效果，RCM模型重点在这。

2.3.1 结构因果模型（SCM）

是一种基于因果关系，采用类似贝叶斯网络的形式构建因果图（一种有向无环图），其中每条有向边表示因子间存在因果关系。通过干预（算子）排除混淆因子的干扰，获取因子间的因果关系，多用于因果发现。因果图（casual graph）为有向无环图（DAG），构建各类因子间因果关系的方法，节点表示因子，有向边表示因果关系和大小。该方法可以将因果图转为结构化等式（structural equations），并通过do算子干预因果图，打破混淆因子干扰，完成因果发现。
在这里插入图片描述
如图是SCM的一个示例。其中t为treatment（即要分析的“因”），y是目标，x是混淆因子。显然，x的存在干扰了分析t对y的影响，作者提出通过do算子去除混淆因子x对treatment的影响，这也是SCM做因果分析的关键。
在这里插入图片描述
如图分析 X 和 Y 因果关系时，若有其他变量 Z，其关系有三种图结构：

链式（a）：X -> Z -> Y 。
叉式（b）：X <- Z -> Y 。
V 式（c）：X -> Z <- Y 。
关键在于过滤变量 Z 对分析的干扰，实现因果识别，也就是明确 X 变化对 Y 的影响。

那么经典的操作有两种：

后门准则与调整
对应结构：叉式图结构。
准则内容：变量集 Z 若满足① 不含 X 的子孙节点；② 阻断 X 到 Y 的所有后门路径，就满足 (X, Y) 的后门准则。
调整方法：基于后门路径，用干预 do 算子消除混淆因子影响,模拟干预，强制设置 $Z = z$ ，切断其与父节点的联系，依据已知数据分布，估计变量间因果效应。
实际例子：研究吸烟（X）与肺癌（Y）的因果关系，存在一个混淆变量Z（如空气污染），它既影响人们是否吸烟（比如空气污染严重地区的人可能更倾向于通过吸烟缓解压力），又影响肺癌的发生概率。此时，空气污染Z与吸烟X和肺癌Y构成叉式图结构（X <- Z -> Y ）。
为了准确分析吸烟对肺癌的因果影响，需要运用后门调整。我们收集不同地区人群的吸烟情况、空气污染程度以及肺癌患病数据。通过控制空气污染这个变量Z（比如将空气污染程度相同的人群分为一组），来消除它对吸烟和肺癌关系的干扰，进而得到吸烟对肺癌真正的因果效应。
公式：设 $P (Y ∣ X)$ 是未调整时Y关于X的概率分布， $\{Z_1, Z_2, \cdots, Z_n\}$ 是满足后门准则的混淆变量集合。后门调整公式为 $P(Y|do(X))=\sum_{z}P(Y|X, Z = z)P(Z = z)$ 。这里 $d o (X)$ 表示对X进行干预， $P (Y ∣ d o (X))$ 就是经过后门调整后，在干预X的情况下Y的概率分布，通过对所有可能的Z取值进行求和计算，消除Z的混淆影响。
因果效应公式： $\text{ATE} = \sum_Z \left[ \mathbb{E}[Y \mid T=1, Z] - \mathbb{E}[Y \mid T=0, Z] \right] P(Z)$
前门准则与调整
对应结构：链式图结构。
准则内容：变量集 Z 若满足① 阻断 X 到 Y 的所有路径；② X 到 Z 无未阻断路径（无后门路径）；③ Z 到 Y 的所有后门路径被 X 阻断，就满足 (X, Y) 的前门准则。
调整方法：和后门调整类似，借助 do 算子去除前门路径（链式）的影响。
实际例子：假设要研究某种药物治疗（X）对患者康复（Y）的因果关系，存在一个中间变量Z（比如血液中药物有效成分浓度），形成链式图结构（X -> Z -> Y ）。药物治疗会影响血液中药物有效成分浓度，而血液中药物有效成分浓度又会影响患者是否康复。
我们收集接受药物治疗的患者数据，包括药物服用情况、血液中药物有效成分浓度以及康复情况。利用前门调整，先分析药物治疗对血液中药物有效成分浓度的影响，再分析血液中药物有效成分浓度对康复的影响，通过一系列计算来消除其他干扰因素，从而得到药物治疗对患者康复的因果效应。
公式：设 $P (Y ∣ X)$ 是未调整时Y关于X的概率分布，Z是满足前门准则的变量。前门调整公式为 $P(Y|do(X))=\sum_{z}P(Z = z|X)\sum_{x'}P(Y|X = x', Z = z)P(X = x')$ 。其中 $P (Z = z ∣ X)$ 是X到Z的概率关系， $P (Y ∣ X = x^{'}, Z = z)$ 是在给定Z时X与Y的关系，通过双重求和计算，剥离其他干扰因素，得到干预X时Y的概率分布，即药物治疗对患者康复真正的因果关系。
因果效应公式：
$\text{ATE} = \sum_M \left[ \mathbb{E}[M \mid T=1] \mathbb{E}[Y \mid M, T=0] \right] - \sum_M \left[ \mathbb{E}[M \mid T=0] \mathbb{E}[Y \mid M, T=0] \right]$

2.3.2 潜在结果模型（RCM）

重点关注代分析因子（因）和目标（果）的关系，不需要构建整体的图。模型假设分析因子外的变量为混淆因子，通过算法平衡实验组和控制组以排除混淆因子的干扰，从而实现反事实预估，多用于因果效应评估。RCM（潜在结果模型）聚焦于干预前后的期望变化，该模型不追求分析所有因子的因果关系，仅关注干预（Treatment）与结果（Output）之间的因果强弱，因此无需构建完整的因果图，而是将干预和结果之外的其他因子均视为混淆因子，通过构建简化的因果图、预测反事实结果并与观测结果对比，完成因果推断。

RCM（潜在结果模型）聚焦于干预前后的期望变化，即2.2节所述的Treatment Effect（因果效应）。该模型不追求分析所有因子的因果关系，仅关注干预（Treatment）与结果（Output）之间的因果强弱，因此无需构建完整的因果图，而是将干预和结果之外的其他因子均视为混淆因子，通过构建简化的因果图、预测反事实结果并与观测结果对比，完成因果推断。 RCM的输出分为四种因果效应指标（ATE/ATT/CATE/ITE）ATE（整体平均效应）、ATT（干预组平均效应）、CATE（子组平均效应）、ITE（个体因果效应）。

RCM基于以下3个核心假设：

稳定单元干预值假设（SUTVA）
- 含义：
  ① 任意个体的潜在结果不受其他个体干预状态的影响（如“你吃药”不影响“我康复”）；
  ② 每种干预形式唯一（如“吃药”不存在剂量差异，若需研究药量影响，则需将干预变量扩展为多值，而非简单的0/1）。
可忽略性假设（Ignorability）
- 条件：给定背景变量X（含混淆因子），干预分配T与潜在结果Y独立，即 $\perp T \mid X$ 。
- 解读：
  背景变量一致的个体，其潜在结果与干预分配无关（如两个年龄、病史相同的患者，“吃药是否康复”的概率仅由X决定，与“是否被分配吃药”无关）。
  关键要求：X需足够全面，确保无未观测的混淆因子，否则模型泛化能力受限。
正值假设（Positivity）
- 要求：对任意背景变量X，干预分配存在非零概率即 $\mid X) < 1$ 。
- 意义：避免某些X取值下干预分配完全确定（如“所有老年人必然不服药”），确保数据中存在足够的干预对比信息，支持因果效应估计。

3.1 倾向得分（Propensity Score）

定义：( e(X) = P(T=1 \mid X) )，通过逻辑回归估计：
$\log \frac{e(X)}{1-e(X)} = \beta^T X$
平衡性检验：理想情况下，匹配后 ( \mathbb{E}[X \mid T=1] \approx \mathbb{E}[X \mid T=0] )。

3.2 逆概率加权（IPTW）

权重计算：
$w_i = \frac{T_i}{e(X_i)} + \frac{1-T_i}{1-e(X_i)}$
标准化权重：( \tilde{w}_i = \frac{w_i}{\sum_j w_j} )
ATE估计：
$\hat{\text{ATE}} = \sum_i \tilde{w}_i T_i Y_i - \sum_i \tilde{w}_i (1-T_i) Y_i$

3.3 双重稳健估计（DR, Doubly Robust）

结合倾向得分加权与结果回归：
$\hat{Y}(X, T) = \begin{cases} \frac{Y}{e(X)} + (1-T) \cdot g(X) & (T=1) \\ \frac{Y}{1-e(X)} + T \cdot g(X) & (T=0) \end{cases}$
其中 ( g(X) = \mathbb{E}[Y \mid X] ) 为结果回归模型。
ATE公式：
$\hat{\text{ATE}} = \mathbb{E}[T \cdot \left( \frac{Y}{e(X)} - g(X) \right) + g(X) \mid T=1] - \mathbb{E}[g(X) \mid T=0]$

3.4 匹配方法（PSM）的数学细节

马氏距离：
$d_M(x_i, x_j) = (x_i - x_j)^T \Sigma^{-1} (x_i - x_j)$
（ $\Sigma$ 为协方差矩阵，消除特征量纲影响）
卡尺匹配（Caliper Matching）：设定阈值 $\epsilon$ ，仅匹配 $|e(x_i) - e(x_j)| < \epsilon$ 的样本。
核匹配（Kernel Matching）：
$\hat{\tau}(x) = \frac{\sum_i T_i K(e(x), e(x_i)) Y_i}{\sum_i K(e(x), e(x_i))} - \frac{\sum_i (1-T_i) K(e(x), e(x_i)) Y_i}{\sum_i K(e(x), e(x_i))}$
$K$ 为核函数，如高斯核

4. 机器学习方法：从树到深度学习

4.1 因果森林（Causal Forest）

诚实树构建：
1. 样本划分为训练集 ( A )（构建树）和估计集 ( B )（计算效应）；
2. 对训练集 ( A )，在节点 ( v ) 处选择分裂特征 ( j ) 和阈值 ( c )，最大化：
  $\max_{j,c} \left[ \text{Var}(Y_A \mid X_A \in v) - \frac{n_{v_L}}{n_v} \text{Var}(Y_A \mid X_A \in v_L) - \frac{n_{v_R}}{n_v} \text{Var}(Y_A \mid X_A \in v_R) \right]$
  （ $v_L, v_R$ 为左右子节点， $n_v$ 为节点样本数）
3. 对估计集 $B$ ，在叶子节点 $l$ 中计算：
  $\hat{\tau}_l = \frac{1}{n_l^T} \sum_{i \in B \cap l, T_i=1} Y_i - \frac{1}{n_l^C} \sum_{i \in B \cap l, T_i=0} Y_i$
总体效应： $\hat{\tau}(x) = \frac{1}{L} \sum_{l=1}^L \hat{\tau}_l \cdot \mathbb{I}(x \in l)$

4.2 表征学习：CFRNet的损失函数

模型结构：共享底层特征提取器 $f (X)$ ，分塔输出 $\hat{Y}_0 = h_0(f(X))$ （控制组）和 $\hat{Y}_1 = h_1(f(X))$ （干预组）。
损失函数：
$\mathcal{L} = \mathcal{L}_{\text{pred}} + \lambda \mathcal{L}_{\text{ipm}} + \gamma \mathcal{L}_{\text{reg}}$
其中：
- 预测损失： $\mathcal{L}_{\text{pred}} = \sum_i T_i \cdot \text{MSE}(\hat{Y}_{1i}, Y_i) + (1-T_i) \cdot \text{MSE}(\hat{Y}_{0i}, Y_i)$
- IPM分布对齐损失（以MMD为例）：
  $\mathcal{L}_{\text{ipm}} = \frac{1}{n_1^2} \sum_{i,j=1}^{n_1} k(f(X_i), f(X_j)) + \frac{1}{n_0^2} \sum_{i,j=1}^{n_0} k(f(X_i'), f(X_j')) - \frac{2}{n_1 n_0} \sum_{i=1}^{n_1} \sum_{j=1}^{n_0} k(f(X_i), f(X_j'))$
  （ $n_1, n_0$ 为干预组、控制组样本数， $k$ 为核函数）
- 正则项： $\mathcal{L}_{\text{reg}} = \|h_0\|_2^2 + \|h_1\|_2^2$

4.3 CEVAE：隐变量建模未观测混淆因子

生成模型：
$\mid Z) p(T \mid X, Z) p(Y \mid T, X, Z)$
推断网络：
$\mid X, T, Y) = \frac{p(Y \mid T, X, Z) p(T \mid X, Z) p(X \mid Z) p(Z)}{\sum_Z p(Y \mid T, X, Z) p(T \mid X, Z) p(X \mid Z) p(Z)}$
目标函数（ELBO）：
$\mathcal{L} = \mathbb{E}_{q(Z \mid X,T,Y)} [\log p(Y \mid T, X, Z)] - \text{KL}(q(Z \mid X,T,Y) \| p(Z))$

术语

变量名	说明
unit（单元）	干预效果研究中的最小研究对象。在一些框架下，不同时刻的同一对象被认为是不同的units。
treatment（干预）	干预/治疗（T/W），施加给unit的操作。也叫做干预、介入等。在二元Treatment的情况下（即T = 0或1)，Treatment组包含接受Treatment为T = 1的unit，而对照组包含接受Treatment为T = 0的unit。
do算子	这是SCM里对设置treatment值的算子。比如do(t1)表示将干预设置为t1，该算子常用于阻隔（block）confounder对干预的影响
variables（变量）	unit自带的一些属性，比如患者的年龄，性别，病史，血压等。这里分为pre - treatment variables和post - treatment variables ● pre - treatment variables（预干预变量/背景变量）：预干预变量指不会被干预影响的变量。例如患者人口统计学，疾病史等。一般我们说的confounder就是背景变量 ● post - treatment variables（后干预变量）：后干预变量指会被干预影响的变量
Confounders（混淆因子/协变量）	会影响treatment选择和结果的一些变量(x)。即背景变量
Treatment Effect / Causal Effect（因果效应）	对unit进行不同Treatment之后unit产生的Outcome的变化，这种效应可以定义在整体层面、treatment组层面、子组层面和个体层面 ● 整体层面的平均干预效果（ATE，Average Treatment Effect）：ATE = E[Y(T = 1) - Y(T = 0)] ● Treatment组的平均干预效果（ATT，Average Treatment Effect on the Treated Group ）：ATT = E[Y(T = 1)
potential outcome（潜在结果）	施加给对象的操作所能产生的所有可能产生的结果。包含observed outcome和反事实结果。
factual outcome/Observed Outcome（观测结果）	已经发生的事实，施加给对象的操作最终观测到的结果，记做Y.
counterfactual outcome（反事实结果）	某次操作没有产生的结果。从唯物主义的观点来看，事物是在时刻变化的，因此实验是不可逆的。而没有观测到的结果，是不可能看到的，即为反事实。也即对某个unit未采用的其他treatment带来的潜在结果
counterfactual inference	反事实推理，解决类似于“如果这个病人采用其他疗法，血压会降下来吗？”这类问题的推理
倾向分数propensity score	P(T = 1
选择偏倚selection bias	由于Confounders的存在，treatment组和对照组的分布有可能不一致，因此导致出现偏差，这也使得推理更加困难。