【因果推断】(一)知识点介绍
【因果推断】(一)知识点介绍
一、引子
例子:你想知道运动(因)能否让你工作时更专注(果)。某一周,你坚持每天运动(T=1),工作时专注力较好(Y=1)(事实),但这一周若没运动(T=0),工作时的专注力水平(Y=1/0),是你无法观测的反事实状态(反事实)。此时,工作压力大小、饮食规律与否等因素(混淆因子),可能既影响你是否选择运动,又直接作用于专注力表现,使因果关系的辨析变得模糊。
因果推断的核心,正是通过统计模型或实验设计(如随机对照试验、倾向得分匹配等),剥离混淆因子的干扰,构建 “若未发生原因事件,结果会如何” 的反事实框架。例如,当用分层分析对比相同压力水平下运动与不运动者的专注力差异时,看似清晰的因果链却可能因数据分层维度的选择,陷入辛普森悖论—— 即在整体数据中运动与专注力呈正相关,但若按年龄分层后,各层内可能出现负相关。这是因为年龄作为潜在的强混淆因子,同时影响运动选择(年轻人更易坚持运动)和专注力基线(年轻人本身专注力更强),导致整体关联被虚假放大,而分层后真实关系才得以显现。
而辛普森悖论的出现,本质是对混淆因子的控制不足或过度:当忽略关键分层变量(如年龄)时,因果效应可能被混淆因子 “污染”;而强行控制与因果路径无关的变量(如运动时穿的服装颜色),又可能破坏数据的自然关联结构。因此,因果推断不仅需要数学工具,更依赖对因果机制的理论认知…
二、数学基础
2.1 反事实与因果效应的数学定义
-
个体因果效应(ITE, Individual Treatment Effect):
ITE i = Y i ( T ) − Y i ( T ) \text{ITE}_i = Y_i(T) - Y_i(T) ITEi=Yi(T)−Yi(T)
其中 Y i ( 1 ) Y_i(1) Yi(1)为个体 i i i 接受干预的潜在结果, Y i ( 0 ) Y_i(0) Yi(0) 为未接受干预的潜在结果(反事实)。 -
平均因果效应(ATE, Average Treatment Effect):
ATE = E [ Y ( T ) − Y ( T ) ] = E [ Y ( T = 1 ) ] − E [ Y ( T = 0 ) ] \text{ATE} = \mathbb{E}[Y(T) - Y(T)] = \mathbb{E}[Y(T=1)] - \mathbb{E}[Y(T=0)] ATE=E[Y(T)−Y(T)]=E[Y(T=1)]−E[Y(T=0)]- ATT(干预组平均效应): ATT = E [ Y ( 1 ) − Y ( 0 ) ∣ T = 1 ] \text{ATT} = \mathbb{E}[Y(1) - Y(0) \mid T=1] ATT=E[Y(1)−Y(0)∣T=1]
- ATC(对照组平均效应): ATC = E [ Y ( 1 ) − Y ( 0 ) ∣ T = 0 ] \text{ATC} = \mathbb{E}[Y(1) - Y(0) \mid T=0] ATC=E[Y(1)−Y(0)∣T=0]
其中ATC实际未接受干预的群体,ATT实际接受干预的群体。
2.2 因果之梯的数学表达
层级 | 问题类型 | 形式化表达 | 核心障碍 |
---|---|---|---|
相关 | 关联分析 | P ( Y ∣ X ) P(Y \mid X) P(Y∣X) | 混淆因子(Confounder) |
干预 | 行动结果预测 | P ( Y ∣ do ( X ) , Z ) P(Y \mid \text{do}(X), Z) P(Y∣do(X),Z) | 干预分配机制 |
反事实 | 个体因果效应 | Y i ( 1 ) − Y i ( 0 ) Y_i(1) - Y_i(0) Yi(1)−Yi(0) | 反事实不可观测 |
关键公式:干预分布与观测分布的差异 P ( Y ∣ do ( X ) ) ≠ P ( Y ∣ X ) ( 因混淆因子 Z 存在 ) P(Y \mid \text{do}(X)) \neq P(Y \mid X) \quad (\text{因混淆因子} Z \text{存在}) P(Y∣do(X))=P(Y∣X)(因混淆因子Z存在)
而要验证数学定义,**随机对照试验(RCT)**显然是可以的,但代价昂贵且费时费力,因此可以对已有的观测数据,通过建模进行因果关系的研究。研究流派包括(结构因果模型SCM、潜在结果模型RCM)
2.3 研究流派(SCM、RCM)
- Identification(因果识别):用观测数据,找不同干预下结果的分布,通过分布差异判断因果关系,SCM模型主要干这事儿。
- Estimation(因果推断):根据统计结果,推测没发生的反事实情况,用反事实和观测的差异衡量效果,RCM模型重点在这 。
2.3.1 结构因果模型(SCM)
是一种基于因果关系,采用类似贝叶斯网络的形式构建因果图(一种有向无环图),其中每条有向边表示因子间存在因果关系。通过干预(算子)排除混淆因子的干扰,获取因子间的因果关系,多用于因果发现。因果图(casual graph)为有向无环图(DAG),构建各类因子间因果关系的方法,节点表示因子,有向边表示因果关系和大小。该方法可以将因果图转为结构化等式(structural equations),并通过do算子干预因果图,打破混淆因子干扰,完成因果发现。
如图是SCM的一个示例。其中t为treatment(即要分析的“因”),y是目标,x是混淆因子。显然,x的存在干扰了分析t对y的影响,作者提出通过do算子去除混淆因子x对treatment的影响,这也是SCM做因果分析的关键。
如图分析 X 和 Y 因果关系时,若有其他变量 Z,其关系有三种图结构:
- 链式(a):X -> Z -> Y 。
- 叉式(b):X <- Z -> Y 。
- V 式(c):X -> Z <- Y 。
关键在于过滤变量 Z 对分析的干扰,实现因果识别,也就是明确 X 变化对 Y 的影响。
那么经典的操作有两种:
-
后门准则与调整
对应结构:叉式图结构。
准则内容:变量集 Z 若满足① 不含 X 的子孙节点;② 阻断 X 到 Y 的所有后门路径,就满足 (X, Y) 的后门准则 。
调整方法:基于后门路径,用干预 do 算子消除混淆因子影响,模拟干预,强制设置 Z = z Z=z Z=z,切断其与父节点的联系,依据已知数据分布,估计变量间因果效应。
实际例子:研究吸烟(X)与肺癌(Y)的因果关系,存在一个混淆变量Z(如空气污染),它既影响人们是否吸烟(比如空气污染严重地区的人可能更倾向于通过吸烟缓解压力 ),又影响肺癌的发生概率。此时,空气污染Z与吸烟X和肺癌Y构成叉式图结构(X <- Z -> Y ) 。
为了准确分析吸烟对肺癌的因果影响,需要运用后门调整。我们收集不同地区人群的吸烟情况、空气污染程度以及肺癌患病数据。通过控制空气污染这个变量Z(比如将空气污染程度相同的人群分为一组 ),来消除它对吸烟和肺癌关系的干扰,进而得到吸烟对肺癌真正的因果效应。
公式:设 P ( Y ∣ X ) P(Y|X) P(Y∣X)是未调整时Y关于X的概率分布, Z = { Z 1 , Z 2 , ⋯ , Z n } Z = \{Z_1, Z_2, \cdots, Z_n\} Z={Z1,Z2,⋯,Zn} 是满足后门准则的混淆变量集合。后门调整公式为 P ( Y ∣ d o ( X ) ) = ∑ z P ( Y ∣ X , Z = z ) P ( Z = z ) P(Y|do(X))=\sum_{z}P(Y|X, Z = z)P(Z = z) P(Y∣do(X))=∑zP(Y∣X,Z=z)P(Z=z) 。这里 d o ( X ) do(X) do(X)表示对X进行干预, P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Y∣do(X))就是经过后门调整后,在干预X的情况下Y的概率分布,通过对所有可能的Z取值进行求和计算,消除Z的混淆影响 。
因果效应公式: ATE = ∑ Z [ E [ Y ∣ T = 1 , Z ] − E [ Y ∣ T = 0 , Z ] ] P ( Z ) \text{ATE} = \sum_Z \left[ \mathbb{E}[Y \mid T=1, Z] - \mathbb{E}[Y \mid T=0, Z] \right] P(Z) ATE=∑Z[E[Y∣T=1,Z]−E[Y∣T=0,Z]]P(Z) -
前门准则与调整
对应结构:链式图结构。
准则内容:变量集 Z 若满足① 阻断 X 到 Y 的所有路径;② X 到 Z 无未阻断路径(无后门路径);③ Z 到 Y 的所有后门路径被 X 阻断,就满足 (X, Y) 的前门准则 。
调整方法:和后门调整类似,借助 do 算子去除前门路径(链式)的影响。
实际例子:假设要研究某种药物治疗(X)对患者康复(Y)的因果关系,存在一个中间变量Z(比如血液中药物有效成分浓度 ),形成链式图结构(X -> Z -> Y )。药物治疗会影响血液中药物有效成分浓度,而血液中药物有效成分浓度又会影响患者是否康复。
我们收集接受药物治疗的患者数据,包括药物服用情况、血液中药物有效成分浓度以及康复情况。利用前门调整,先分析药物治疗对血液中药物有效成分浓度的影响,再分析血液中药物有效成分浓度对康复的影响,通过一系列计算来消除其他干扰因素,从而得到药物治疗对患者康复的因果效应。
公式:设 P ( Y ∣ X ) P(Y|X) P(Y∣X)是未调整时Y关于X的概率分布,Z是满足前门准则的变量。前门调整公式为 P ( Y ∣ d o ( X ) ) = ∑ z P ( Z = z ∣ X ) ∑ x ′ P ( Y ∣ X = x ′ , Z = z ) P ( X = x ′ ) P(Y|do(X))=\sum_{z}P(Z = z|X)\sum_{x'}P(Y|X = x', Z = z)P(X = x') P(Y∣do(X))=∑zP(Z=z∣X)∑x′P(Y∣X=x′,Z=z)P(X=x′) 。其中 P ( Z = z ∣ X ) P(Z = z|X) P(Z=z∣X)是X到Z的概率关系, P ( Y ∣ X = x ′ , Z = z ) P(Y|X = x', Z = z) P(Y∣X=x′,Z=z)是在给定Z时X与Y的关系,通过双重求和计算,剥离其他干扰因素,得到干预X时Y的概率分布,即药物治疗对患者康复真正的因果关系 。
因果效应公式:
ATE = ∑ M [ E [ M ∣ T = 1 ] E [ Y ∣ M , T = 0 ] ] − ∑ M [ E [ M ∣ T = 0 ] E [ Y ∣ M , T = 0 ] ] \text{ATE} = \sum_M \left[ \mathbb{E}[M \mid T=1] \mathbb{E}[Y \mid M, T=0] \right] - \sum_M \left[ \mathbb{E}[M \mid T=0] \mathbb{E}[Y \mid M, T=0] \right] ATE=∑M[E[M∣T=1]E[Y∣M,T=0]]−∑M[E[M∣T=0]E[Y∣M,T=0]]
2.3.2 潜在结果模型(RCM)
重点关注代分析因子(因)和目标(果)的关系,不需要构建整体的图。模型假设分析因子外的变量为混淆因子,通过算法平衡实验组和控制组以排除混淆因子的干扰,从而实现反事实预估,多用于因果效应评估。RCM(潜在结果模型)聚焦于干预前后的期望变化,该模型不追求分析所有因子的因果关系,仅关注干预(Treatment)与结果(Output)之间的因果强弱,因此无需构建完整的因果图,而是将干预和结果之外的其他因子均视为混淆因子,通过构建简化的因果图、预测反事实结果并与观测结果对比,完成因果推断。
RCM(潜在结果模型)聚焦于干预前后的期望变化,即2.2节所述的Treatment Effect(因果效应)。该模型不追求分析所有因子的因果关系,仅关注干预(Treatment)与结果(Output)之间的因果强弱,因此无需构建完整的因果图,而是将干预和结果之外的其他因子均视为混淆因子,通过构建简化的因果图、预测反事实结果并与观测结果对比,完成因果推断。 RCM的输出分为四种因果效应指标(ATE/ATT/CATE/ITE)ATE(整体平均效应)、ATT(干预组平均效应)、CATE(子组平均效应)、ITE(个体因果效应)。
RCM基于以下3个核心假设:
-
稳定单元干预值假设(SUTVA)
- 含义:
① 任意个体的潜在结果不受其他个体干预状态的影响(如“你吃药”不影响“我康复”);
② 每种干预形式唯一(如“吃药”不存在剂量差异,若需研究药量影响,则需将干预变量扩展为多值,而非简单的0/1)。
- 含义:
-
可忽略性假设(Ignorability)
- 条件:给定背景变量X(含混淆因子),干预分配T与潜在结果Y独立,即 ( Y ( 1 ) , Y ( 0 ) ) ⊥ T ∣ X (Y(1), Y(0)) \perp T \mid X (Y(1),Y(0))⊥T∣X。
- 解读:
背景变量一致的个体,其潜在结果与干预分配无关(如两个年龄、病史相同的患者,“吃药是否康复”的概率仅由X决定,与“是否被分配吃药”无关)。
关键要求:X需足够全面,确保无未观测的混淆因子,否则模型泛化能力受限。
-
正值假设(Positivity)
- 要求:对任意背景变量X,干预分配存在非零概率即 0 < P ( T = 1 ∣ X ) < 1 0 < P(T=1 \mid X) < 1 0<P(T=1∣X)<1。
- 意义:避免某些X取值下干预分配完全确定(如“所有老年人必然不服药”),确保数据中存在足够的干预对比信息,支持因果效应估计。
3.1 倾向得分(Propensity Score)
- 定义:( e(X) = P(T=1 \mid X) ),通过逻辑回归估计:
log e ( X ) 1 − e ( X ) = β T X \log \frac{e(X)}{1-e(X)} = \beta^T X log1−e(X)e(X)=βTX - 平衡性检验:理想情况下,匹配后 ( \mathbb{E}[X \mid T=1] \approx \mathbb{E}[X \mid T=0] )。
3.2 逆概率加权(IPTW)
- 权重计算:
w i = T i e ( X i ) + 1 − T i 1 − e ( X i ) w_i = \frac{T_i}{e(X_i)} + \frac{1-T_i}{1-e(X_i)} wi=e(Xi)Ti+1−e(Xi)1−Ti - 标准化权重:( \tilde{w}_i = \frac{w_i}{\sum_j w_j} )
- ATE估计:
ATE ^ = ∑ i w ~ i T i Y i − ∑ i w ~ i ( 1 − T i ) Y i \hat{\text{ATE}} = \sum_i \tilde{w}_i T_i Y_i - \sum_i \tilde{w}_i (1-T_i) Y_i ATE^=∑iw~iTiYi−∑iw~i(1−Ti)Yi
3.3 双重稳健估计(DR, Doubly Robust)
- 结合倾向得分加权与结果回归:
Y ^ ( X , T ) = { Y e ( X ) + ( 1 − T ) ⋅ g ( X ) ( T = 1 ) Y 1 − e ( X ) + T ⋅ g ( X ) ( T = 0 ) \hat{Y}(X, T) = \begin{cases} \frac{Y}{e(X)} + (1-T) \cdot g(X) & (T=1) \\ \frac{Y}{1-e(X)} + T \cdot g(X) & (T=0) \end{cases} Y^(X,T)={e(X)Y+(1−T)⋅g(X)1−e(X)Y+T⋅g(X)(T=1)(T=0)
其中 ( g(X) = \mathbb{E}[Y \mid X] ) 为结果回归模型。 - ATE公式:
ATE ^ = E [ T ⋅ ( Y e ( X ) − g ( X ) ) + g ( X ) ∣ T = 1 ] − E [ g ( X ) ∣ T = 0 ] \hat{\text{ATE}} = \mathbb{E}[T \cdot \left( \frac{Y}{e(X)} - g(X) \right) + g(X) \mid T=1] - \mathbb{E}[g(X) \mid T=0] ATE^=E[T⋅(e(X)Y−g(X))+g(X)∣T=1]−E[g(X)∣T=0]
3.4 匹配方法(PSM)的数学细节
- 马氏距离:
d M ( x i , x j ) = ( x i − x j ) T Σ − 1 ( x i − x j ) d_M(x_i, x_j) = (x_i - x_j)^T \Sigma^{-1} (x_i - x_j) dM(xi,xj)=(xi−xj)TΣ−1(xi−xj)
( Σ \Sigma Σ 为协方差矩阵,消除特征量纲影响) - 卡尺匹配(Caliper Matching):设定阈值 ϵ \epsilon ϵ,仅匹配 ∣ e ( x i ) − e ( x j ) ∣ < ϵ |e(x_i) - e(x_j)| < \epsilon ∣e(xi)−e(xj)∣<ϵ 的样本。
- 核匹配(Kernel Matching):
τ ^ ( x ) = ∑ i T i K ( e ( x ) , e ( x i ) ) Y i ∑ i K ( e ( x ) , e ( x i ) ) − ∑ i ( 1 − T i ) K ( e ( x ) , e ( x i ) ) Y i ∑ i K ( e ( x ) , e ( x i ) ) \hat{\tau}(x) = \frac{\sum_i T_i K(e(x), e(x_i)) Y_i}{\sum_i K(e(x), e(x_i))} - \frac{\sum_i (1-T_i) K(e(x), e(x_i)) Y_i}{\sum_i K(e(x), e(x_i))} τ^(x)=∑iK(e(x),e(xi))∑iTiK(e(x),e(xi))Yi−∑iK(e(x),e(xi))∑i(1−Ti)K(e(x),e(xi))Yi
K K K为核函数,如高斯核
4. 机器学习方法:从树到深度学习
4.1 因果森林(Causal Forest)
- 诚实树构建:
- 样本划分为训练集 ( A )(构建树)和估计集 ( B )(计算效应);
- 对训练集 ( A ),在节点 ( v ) 处选择分裂特征 ( j ) 和阈值 ( c ),最大化:
max j , c [ Var ( Y A ∣ X A ∈ v ) − n v L n v Var ( Y A ∣ X A ∈ v L ) − n v R n v Var ( Y A ∣ X A ∈ v R ) ] \max_{j,c} \left[ \text{Var}(Y_A \mid X_A \in v) - \frac{n_{v_L}}{n_v} \text{Var}(Y_A \mid X_A \in v_L) - \frac{n_{v_R}}{n_v} \text{Var}(Y_A \mid X_A \in v_R) \right] maxj,c[Var(YA∣XA∈v)−nvnvLVar(YA∣XA∈vL)−nvnvRVar(YA∣XA∈vR)]
( v L , v R v_L, v_R vL,vR 为左右子节点, n v n_v nv为节点样本数) - 对估计集 B B B,在叶子节点 l l l 中计算:
τ ^ l = 1 n l T ∑ i ∈ B ∩ l , T i = 1 Y i − 1 n l C ∑ i ∈ B ∩ l , T i = 0 Y i \hat{\tau}_l = \frac{1}{n_l^T} \sum_{i \in B \cap l, T_i=1} Y_i - \frac{1}{n_l^C} \sum_{i \in B \cap l, T_i=0} Y_i τ^l=nlT1∑i∈B∩l,Ti=1Yi−nlC1∑i∈B∩l,Ti=0Yi
- 总体效应: τ ^ ( x ) = 1 L ∑ l = 1 L τ ^ l ⋅ I ( x ∈ l ) \hat{\tau}(x) = \frac{1}{L} \sum_{l=1}^L \hat{\tau}_l \cdot \mathbb{I}(x \in l) τ^(x)=L1∑l=1Lτ^l⋅I(x∈l)
4.2 表征学习:CFRNet的损失函数
- 模型结构:共享底层特征提取器 f ( X ) f(X) f(X),分塔输出 Y ^ 0 = h 0 ( f ( X ) ) \hat{Y}_0 = h_0(f(X)) Y^0=h0(f(X))(控制组)和 Y ^ 1 = h 1 ( f ( X ) ) \hat{Y}_1 = h_1(f(X)) Y^1=h1(f(X))(干预组)。
- 损失函数:
L = L pred + λ L ipm + γ L reg \mathcal{L} = \mathcal{L}_{\text{pred}} + \lambda \mathcal{L}_{\text{ipm}} + \gamma \mathcal{L}_{\text{reg}} L=Lpred+λLipm+γLreg
其中:- 预测损失: L pred = ∑ i T i ⋅ MSE ( Y ^ 1 i , Y i ) + ( 1 − T i ) ⋅ MSE ( Y ^ 0 i , Y i ) \mathcal{L}_{\text{pred}} = \sum_i T_i \cdot \text{MSE}(\hat{Y}_{1i}, Y_i) + (1-T_i) \cdot \text{MSE}(\hat{Y}_{0i}, Y_i) Lpred=∑iTi⋅MSE(Y^1i,Yi)+(1−Ti)⋅MSE(Y^0i,Yi)
- IPM分布对齐损失(以MMD为例):
L ipm = 1 n 1 2 ∑ i , j = 1 n 1 k ( f ( X i ) , f ( X j ) ) + 1 n 0 2 ∑ i , j = 1 n 0 k ( f ( X i ′ ) , f ( X j ′ ) ) − 2 n 1 n 0 ∑ i = 1 n 1 ∑ j = 1 n 0 k ( f ( X i ) , f ( X j ′ ) ) \mathcal{L}_{\text{ipm}} = \frac{1}{n_1^2} \sum_{i,j=1}^{n_1} k(f(X_i), f(X_j)) + \frac{1}{n_0^2} \sum_{i,j=1}^{n_0} k(f(X_i'), f(X_j')) - \frac{2}{n_1 n_0} \sum_{i=1}^{n_1} \sum_{j=1}^{n_0} k(f(X_i), f(X_j')) Lipm=n121∑i,j=1n1k(f(Xi),f(Xj))+n021∑i,j=1n0k(f(Xi′),f(Xj′))−n1n02∑i=1n1∑j=1n0k(f(Xi),f(Xj′))
( n 1 , n 0 n_1, n_0 n1,n0 为干预组、控制组样本数, k k k 为核函数) - 正则项: L reg = ∥ h 0 ∥ 2 2 + ∥ h 1 ∥ 2 2 \mathcal{L}_{\text{reg}} = \|h_0\|_2^2 + \|h_1\|_2^2 Lreg=∥h0∥22+∥h1∥22
4.3 CEVAE:隐变量建模未观测混淆因子
- 生成模型:
p ( Y , T , X , Z ) = p ( Z ) p ( X ∣ Z ) p ( T ∣ X , Z ) p ( Y ∣ T , X , Z ) p(Y, T, X, Z) = p(Z) p(X \mid Z) p(T \mid X, Z) p(Y \mid T, X, Z) p(Y,T,X,Z)=p(Z)p(X∣Z)p(T∣X,Z)p(Y∣T,X,Z) - 推断网络:
q ( Z ∣ X , T , Y ) = p ( Y ∣ T , X , Z ) p ( T ∣ X , Z ) p ( X ∣ Z ) p ( Z ) ∑ Z p ( Y ∣ T , X , Z ) p ( T ∣ X , Z ) p ( X ∣ Z ) p ( Z ) q(Z \mid X, T, Y) = \frac{p(Y \mid T, X, Z) p(T \mid X, Z) p(X \mid Z) p(Z)}{\sum_Z p(Y \mid T, X, Z) p(T \mid X, Z) p(X \mid Z) p(Z)} q(Z∣X,T,Y)=∑Zp(Y∣T,X,Z)p(T∣X,Z)p(X∣Z)p(Z)p(Y∣T,X,Z)p(T∣X,Z)p(X∣Z)p(Z) - 目标函数(ELBO):
L = E q ( Z ∣ X , T , Y ) [ log p ( Y ∣ T , X , Z ) ] − KL ( q ( Z ∣ X , T , Y ) ∥ p ( Z ) ) \mathcal{L} = \mathbb{E}_{q(Z \mid X,T,Y)} [\log p(Y \mid T, X, Z)] - \text{KL}(q(Z \mid X,T,Y) \| p(Z)) L=Eq(Z∣X,T,Y)[logp(Y∣T,X,Z)]−KL(q(Z∣X,T,Y)∥p(Z))
术语
变量名 | 说明 |
---|---|
unit(单元) | 干预效果研究中的最小研究对象。在一些框架下,不同时刻的同一对象被认为是不同的units。 |
treatment(干预) | 干预/治疗(T/W),施加给unit的操作。也叫做干预、介入等。在二元Treatment的情况下(即T = 0或1),Treatment组包含接受Treatment为T = 1的unit,而对照组包含接受Treatment为T = 0的unit。 |
do算子 | 这是SCM里对设置treatment值的算子。比如do(t1)表示将干预设置为t1,该算子常用于阻隔(block)confounder对干预的影响 |
variables(变量) | unit自带的一些属性,比如患者的年龄,性别,病史,血压等。这里分为pre - treatment variables和post - treatment variables ● pre - treatment variables(预干预变量/背景变量):预干预变量指不会被干预影响的变量。例如患者人口统计学,疾病史等。一般我们说的confounder就是背景变量 ● post - treatment variables(后干预变量):后干预变量指会被干预影响的变量 |
Confounders(混淆因子/协变量) | 会影响treatment选择和结果的一些变量(x)。即背景变量 |
Treatment Effect / Causal Effect(因果效应) | 对unit进行不同Treatment之后unit产生的Outcome的变化,这种效应可以定义在整体层面、treatment组层面、子组层面和个体层面 ● 整体层面的平均干预效果(ATE,Average Treatment Effect):ATE = E[Y(T = 1) - Y(T = 0)] ● Treatment组的平均干预效果(ATT,Average Treatment Effect on the Treated Group ):ATT = E[Y(T = 1) |
potential outcome(潜在结果) | 施加给对象的操作所能产生的所有可能产生的结果。包含observed outcome和反事实结果。 |
factual outcome/Observed Outcome(观测结果) | 已经发生的事实,施加给对象的操作最终观测到的结果,记做Y. |
counterfactual outcome(反事实结果) | 某次操作没有产生的结果。从唯物主义的观点来看,事物是在时刻变化的,因此实验是不可逆的。而没有观测到的结果,是不可能看到的,即为反事实。也即对某个unit未采用的其他treatment带来的潜在结果 |
counterfactual inference | 反事实推理,解决类似于“如果这个病人采用其他疗法,血压会降下来吗?”这类问题的推理 |
倾向分数propensity score | P(T = 1 |
选择偏倚selection bias | 由于Confounders的存在,treatment组和对照组的分布有可能不一致,因此导致出现偏差,这也使得推理更加困难。 |