当前位置: 首页 > ai >正文

【因果推断】(一)知识点介绍

【因果推断】(一)知识点介绍

一、引子

例子:你想知道运动()能否让你工作时更专注()。某一周,你坚持每天运动(T=1),工作时专注力较好(Y=1)(事实),但这一周若没运动(T=0),工作时的专注力水平(Y=1/0),是你无法观测的反事实状态(反事实)。此时,工作压力大小、饮食规律与否等因素(混淆因子),可能既影响你是否选择运动,又直接作用于专注力表现,使因果关系的辨析变得模糊。

因果推断的核心,正是通过统计模型或实验设计(如随机对照试验、倾向得分匹配等),剥离混淆因子的干扰,构建 “若未发生原因事件,结果会如何” 的反事实框架。例如,当用分层分析对比相同压力水平下运动与不运动者的专注力差异时,看似清晰的因果链却可能因数据分层维度的选择,陷入辛普森悖论—— 即在整体数据中运动与专注力呈正相关,但若按年龄分层后,各层内可能出现负相关。这是因为年龄作为潜在的强混淆因子,同时影响运动选择(年轻人更易坚持运动)和专注力基线(年轻人本身专注力更强),导致整体关联被虚假放大,而分层后真实关系才得以显现。

辛普森悖论的出现,本质是对混淆因子的控制不足或过度:当忽略关键分层变量(如年龄)时,因果效应可能被混淆因子 “污染”;而强行控制与因果路径无关的变量(如运动时穿的服装颜色),又可能破坏数据的自然关联结构。因此,因果推断不仅需要数学工具,更依赖对因果机制的理论认知…

二、数学基础

2.1 反事实与因果效应的数学定义

  • 个体因果效应(ITE, Individual Treatment Effect)
    ITE i = Y i ( T ) − Y i ( T ) \text{ITE}_i = Y_i(T) - Y_i(T) ITEi=Yi(T)Yi(T)
    其中 Y i ( 1 ) Y_i(1) Yi(1)为个体 i i i 接受干预的潜在结果, Y i ( 0 ) Y_i(0) Yi(0) 为未接受干预的潜在结果(反事实)。

  • 平均因果效应(ATE, Average Treatment Effect)
    ATE = E [ Y ( T ) − Y ( T ) ] = E [ Y ( T = 1 ) ] − E [ Y ( T = 0 ) ] \text{ATE} = \mathbb{E}[Y(T) - Y(T)] = \mathbb{E}[Y(T=1)] - \mathbb{E}[Y(T=0)] ATE=E[Y(T)Y(T)]=E[Y(T=1)]E[Y(T=0)]

    • ATT(干预组平均效应) ATT = E [ Y ( 1 ) − Y ( 0 ) ∣ T = 1 ] \text{ATT} = \mathbb{E}[Y(1) - Y(0) \mid T=1] ATT=E[Y(1)Y(0)T=1]
    • ATC(对照组平均效应) ATC = E [ Y ( 1 ) − Y ( 0 ) ∣ T = 0 ] \text{ATC} = \mathbb{E}[Y(1) - Y(0) \mid T=0] ATC=E[Y(1)Y(0)T=0]
      其中ATC实际未接受干预的群体,ATT实际接受干预的群体。

2.2 因果之梯的数学表达

层级问题类型形式化表达核心障碍
相关关联分析 P ( Y ∣ X ) P(Y \mid X) P(YX)混淆因子(Confounder)
干预行动结果预测 P ( Y ∣ do ( X ) , Z ) P(Y \mid \text{do}(X), Z) P(Ydo(X),Z)干预分配机制
反事实个体因果效应 Y i ( 1 ) − Y i ( 0 ) Y_i(1) - Y_i(0) Yi(1)Yi(0)反事实不可观测

关键公式:干预分布与观测分布的差异 P ( Y ∣ do ( X ) ) ≠ P ( Y ∣ X ) ( 因混淆因子 Z 存在 ) P(Y \mid \text{do}(X)) \neq P(Y \mid X) \quad (\text{因混淆因子} Z \text{存在}) P(Ydo(X))=P(YX)(因混淆因子Z存在)

而要验证数学定义,**随机对照试验(RCT)**显然是可以的,但代价昂贵且费时费力,因此可以对已有的观测数据,通过建模进行因果关系的研究。研究流派包括(结构因果模型SCM、潜在结果模型RCM)

2.3 研究流派(SCM、RCM)

  • Identification(因果识别):用观测数据,找不同干预下结果的分布,通过分布差异判断因果关系,SCM模型主要干这事儿。
  • Estimation(因果推断):根据统计结果,推测没发生的反事实情况,用反事实和观测的差异衡量效果,RCM模型重点在这 。

2.3.1 结构因果模型(SCM)

是一种基于因果关系,采用类似贝叶斯网络的形式构建因果图(一种有向无环图),其中每条有向边表示因子间存在因果关系。通过干预(算子)排除混淆因子的干扰,获取因子间的因果关系,多用于因果发现。因果图(casual graph)为有向无环图(DAG),构建各类因子间因果关系的方法,节点表示因子,有向边表示因果关系和大小。该方法可以将因果图转为结构化等式(structural equations),并通过do算子干预因果图,打破混淆因子干扰,完成因果发现。
在这里插入图片描述
如图是SCM的一个示例。其中t为treatment(即要分析的“因”),y是目标,x是混淆因子。显然,x的存在干扰了分析t对y的影响,作者提出通过do算子去除混淆因子x对treatment的影响,这也是SCM做因果分析的关键。
在这里插入图片描述
如图分析 X 和 Y 因果关系时,若有其他变量 Z,其关系有三种图结构:

  • 链式(a):X -> Z -> Y 。
  • 叉式(b):X <- Z -> Y 。
  • V 式(c):X -> Z <- Y 。
    关键在于过滤变量 Z 对分析的干扰,实现因果识别,也就是明确 X 变化对 Y 的影响。

那么经典的操作有两种:

  • 后门准则与调整
    对应结构:叉式图结构
    准则内容:变量集 Z 若满足① 不含 X 的子孙节点;② 阻断 X 到 Y 的所有后门路径,就满足 (X, Y) 的后门准则 。
    调整方法:基于后门路径,用干预 do 算子消除混淆因子影响,模拟干预,强制设置 Z = z Z=z Z=z,切断其与父节点的联系,依据已知数据分布,估计变量间因果效应。
    实际例子:研究吸烟(X)与肺癌(Y)的因果关系,存在一个混淆变量Z(如空气污染),它既影响人们是否吸烟(比如空气污染严重地区的人可能更倾向于通过吸烟缓解压力 ),又影响肺癌的发生概率。此时,空气污染Z与吸烟X和肺癌Y构成叉式图结构(X <- Z -> Y ) 。
    为了准确分析吸烟对肺癌的因果影响,需要运用后门调整。我们收集不同地区人群的吸烟情况、空气污染程度以及肺癌患病数据。通过控制空气污染这个变量Z(比如将空气污染程度相同的人群分为一组 ),来消除它对吸烟和肺癌关系的干扰,进而得到吸烟对肺癌真正的因果效应。
    公式:设 P ( Y ∣ X ) P(Y|X) P(YX)是未调整时Y关于X的概率分布, Z = { Z 1 , Z 2 , ⋯ , Z n } Z = \{Z_1, Z_2, \cdots, Z_n\} Z={Z1,Z2,,Zn} 是满足后门准则的混淆变量集合。后门调整公式为 P ( Y ∣ d o ( X ) ) = ∑ z P ( Y ∣ X , Z = z ) P ( Z = z ) P(Y|do(X))=\sum_{z}P(Y|X, Z = z)P(Z = z) P(Ydo(X))=zP(YX,Z=z)P(Z=z) 。这里 d o ( X ) do(X) do(X)表示对X进行干预, P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Ydo(X))就是经过后门调整后,在干预X的情况下Y的概率分布,通过对所有可能的Z取值进行求和计算,消除Z的混淆影响 。
    因果效应公式 ATE = ∑ Z [ E [ Y ∣ T = 1 , Z ] − E [ Y ∣ T = 0 , Z ] ] P ( Z ) \text{ATE} = \sum_Z \left[ \mathbb{E}[Y \mid T=1, Z] - \mathbb{E}[Y \mid T=0, Z] \right] P(Z) ATE=Z[E[YT=1,Z]E[YT=0,Z]]P(Z)

  • 前门准则与调整
    对应结构:链式图结构
    准则内容:变量集 Z 若满足① 阻断 X 到 Y 的所有路径;② X 到 Z 无未阻断路径(无后门路径);③ Z 到 Y 的所有后门路径被 X 阻断,就满足 (X, Y) 的前门准则 。
    调整方法:和后门调整类似,借助 do 算子去除前门路径(链式)的影响。
    实际例子:假设要研究某种药物治疗(X)对患者康复(Y)的因果关系,存在一个中间变量Z(比如血液中药物有效成分浓度 ),形成链式图结构(X -> Z -> Y )。药物治疗会影响血液中药物有效成分浓度,而血液中药物有效成分浓度又会影响患者是否康复。
    我们收集接受药物治疗的患者数据,包括药物服用情况、血液中药物有效成分浓度以及康复情况。利用前门调整,先分析药物治疗对血液中药物有效成分浓度的影响,再分析血液中药物有效成分浓度对康复的影响,通过一系列计算来消除其他干扰因素,从而得到药物治疗对患者康复的因果效应。
    公式:设 P ( Y ∣ X ) P(Y|X) P(YX)是未调整时Y关于X的概率分布,Z是满足前门准则的变量。前门调整公式为 P ( Y ∣ d o ( X ) ) = ∑ z P ( Z = z ∣ X ) ∑ x ′ P ( Y ∣ X = x ′ , Z = z ) P ( X = x ′ ) P(Y|do(X))=\sum_{z}P(Z = z|X)\sum_{x'}P(Y|X = x', Z = z)P(X = x') P(Ydo(X))=zP(Z=zX)xP(YX=x,Z=z)P(X=x) 。其中 P ( Z = z ∣ X ) P(Z = z|X) P(Z=zX)是X到Z的概率关系, P ( Y ∣ X = x ′ , Z = z ) P(Y|X = x', Z = z) P(YX=x,Z=z)是在给定Z时X与Y的关系,通过双重求和计算,剥离其他干扰因素,得到干预X时Y的概率分布,即药物治疗对患者康复真正的因果关系 。
    因果效应公式
    ATE = ∑ M [ E [ M ∣ T = 1 ] E [ Y ∣ M , T = 0 ] ] − ∑ M [ E [ M ∣ T = 0 ] E [ Y ∣ M , T = 0 ] ] \text{ATE} = \sum_M \left[ \mathbb{E}[M \mid T=1] \mathbb{E}[Y \mid M, T=0] \right] - \sum_M \left[ \mathbb{E}[M \mid T=0] \mathbb{E}[Y \mid M, T=0] \right] ATE=M[E[MT=1]E[YM,T=0]]M[E[MT=0]E[YM,T=0]]

2.3.2 潜在结果模型(RCM)

重点关注代分析因子(因)和目标(果)的关系,不需要构建整体的图。模型假设分析因子外的变量为混淆因子,通过算法平衡实验组和控制组以排除混淆因子的干扰,从而实现反事实预估,多用于因果效应评估。RCM(潜在结果模型)聚焦于干预前后的期望变化,该模型不追求分析所有因子的因果关系,仅关注干预(Treatment)与结果(Output)之间的因果强弱,因此无需构建完整的因果图,而是将干预和结果之外的其他因子均视为混淆因子,通过构建简化的因果图、预测反事实结果并与观测结果对比,完成因果推断。

RCM(潜在结果模型)聚焦于干预前后的期望变化,即2.2节所述的Treatment Effect(因果效应)。该模型不追求分析所有因子的因果关系,仅关注干预(Treatment)与结果(Output)之间的因果强弱,因此无需构建完整的因果图,而是将干预和结果之外的其他因子均视为混淆因子,通过构建简化的因果图、预测反事实结果并与观测结果对比,完成因果推断。 RCM的输出分为四种因果效应指标(ATE/ATT/CATE/ITE)ATE(整体平均效应)、ATT(干预组平均效应)、CATE(子组平均效应)、ITE(个体因果效应)。

RCM基于以下3个核心假设:

  1. 稳定单元干预值假设(SUTVA)

    • 含义
      ① 任意个体的潜在结果不受其他个体干预状态的影响(如“你吃药”不影响“我康复”);
      ② 每种干预形式唯一(如“吃药”不存在剂量差异,若需研究药量影响,则需将干预变量扩展为多值,而非简单的0/1)。
  2. 可忽略性假设(Ignorability)

    • 条件:给定背景变量X(含混淆因子),干预分配T与潜在结果Y独立,即 ( Y ( 1 ) , Y ( 0 ) ) ⊥ T ∣ X (Y(1), Y(0)) \perp T \mid X (Y(1),Y(0))TX
    • 解读
      背景变量一致的个体,其潜在结果与干预分配无关(如两个年龄、病史相同的患者,“吃药是否康复”的概率仅由X决定,与“是否被分配吃药”无关)。
      关键要求:X需足够全面,确保无未观测的混淆因子,否则模型泛化能力受限。
  3. 正值假设(Positivity)

    • 要求:对任意背景变量X,干预分配存在非零概率即 0 < P ( T = 1 ∣ X ) < 1 0 < P(T=1 \mid X) < 1 0<P(T=1X)<1
    • 意义:避免某些X取值下干预分配完全确定(如“所有老年人必然不服药”),确保数据中存在足够的干预对比信息,支持因果效应估计。
3.1 倾向得分(Propensity Score)
  • 定义:( e(X) = P(T=1 \mid X) ),通过逻辑回归估计:
    log ⁡ e ( X ) 1 − e ( X ) = β T X \log \frac{e(X)}{1-e(X)} = \beta^T X log1e(X)e(X)=βTX
  • 平衡性检验:理想情况下,匹配后 ( \mathbb{E}[X \mid T=1] \approx \mathbb{E}[X \mid T=0] )。
3.2 逆概率加权(IPTW)
  • 权重计算:
    w i = T i e ( X i ) + 1 − T i 1 − e ( X i ) w_i = \frac{T_i}{e(X_i)} + \frac{1-T_i}{1-e(X_i)} wi=e(Xi)Ti+1e(Xi)1Ti
  • 标准化权重:( \tilde{w}_i = \frac{w_i}{\sum_j w_j} )
  • ATE估计
    ATE ^ = ∑ i w ~ i T i Y i − ∑ i w ~ i ( 1 − T i ) Y i \hat{\text{ATE}} = \sum_i \tilde{w}_i T_i Y_i - \sum_i \tilde{w}_i (1-T_i) Y_i ATE^=iw~iTiYiiw~i(1Ti)Yi
3.3 双重稳健估计(DR, Doubly Robust)
  • 结合倾向得分加权与结果回归:
    Y ^ ( X , T ) = { Y e ( X ) + ( 1 − T ) ⋅ g ( X ) ( T = 1 ) Y 1 − e ( X ) + T ⋅ g ( X ) ( T = 0 ) \hat{Y}(X, T) = \begin{cases} \frac{Y}{e(X)} + (1-T) \cdot g(X) & (T=1) \\ \frac{Y}{1-e(X)} + T \cdot g(X) & (T=0) \end{cases} Y^(X,T)={e(X)Y+(1T)g(X)1e(X)Y+Tg(X)(T=1)(T=0)
    其中 ( g(X) = \mathbb{E}[Y \mid X] ) 为结果回归模型。
  • ATE公式
    ATE ^ = E [ T ⋅ ( Y e ( X ) − g ( X ) ) + g ( X ) ∣ T = 1 ] − E [ g ( X ) ∣ T = 0 ] \hat{\text{ATE}} = \mathbb{E}[T \cdot \left( \frac{Y}{e(X)} - g(X) \right) + g(X) \mid T=1] - \mathbb{E}[g(X) \mid T=0] ATE^=E[T(e(X)Yg(X))+g(X)T=1]E[g(X)T=0]
3.4 匹配方法(PSM)的数学细节
  • 马氏距离
    d M ( x i , x j ) = ( x i − x j ) T Σ − 1 ( x i − x j ) d_M(x_i, x_j) = (x_i - x_j)^T \Sigma^{-1} (x_i - x_j) dM(xi,xj)=(xixj)TΣ1(xixj)
    Σ \Sigma Σ 为协方差矩阵,消除特征量纲影响)
  • 卡尺匹配(Caliper Matching):设定阈值 ϵ \epsilon ϵ,仅匹配 ∣ e ( x i ) − e ( x j ) ∣ < ϵ |e(x_i) - e(x_j)| < \epsilon e(xi)e(xj)<ϵ 的样本。
  • 核匹配(Kernel Matching)
    τ ^ ( x ) = ∑ i T i K ( e ( x ) , e ( x i ) ) Y i ∑ i K ( e ( x ) , e ( x i ) ) − ∑ i ( 1 − T i ) K ( e ( x ) , e ( x i ) ) Y i ∑ i K ( e ( x ) , e ( x i ) ) \hat{\tau}(x) = \frac{\sum_i T_i K(e(x), e(x_i)) Y_i}{\sum_i K(e(x), e(x_i))} - \frac{\sum_i (1-T_i) K(e(x), e(x_i)) Y_i}{\sum_i K(e(x), e(x_i))} τ^(x)=iK(e(x),e(xi))iTiK(e(x),e(xi))YiiK(e(x),e(xi))i(1Ti)K(e(x),e(xi))Yi
    K K K为核函数,如高斯核
4. 机器学习方法:从树到深度学习
4.1 因果森林(Causal Forest)
  • 诚实树构建
    1. 样本划分为训练集 ( A )(构建树)和估计集 ( B )(计算效应);
    2. 对训练集 ( A ),在节点 ( v ) 处选择分裂特征 ( j ) 和阈值 ( c ),最大化:
      max ⁡ j , c [ Var ( Y A ∣ X A ∈ v ) − n v L n v Var ( Y A ∣ X A ∈ v L ) − n v R n v Var ( Y A ∣ X A ∈ v R ) ] \max_{j,c} \left[ \text{Var}(Y_A \mid X_A \in v) - \frac{n_{v_L}}{n_v} \text{Var}(Y_A \mid X_A \in v_L) - \frac{n_{v_R}}{n_v} \text{Var}(Y_A \mid X_A \in v_R) \right] maxj,c[Var(YAXAv)nvnvLVar(YAXAvL)nvnvRVar(YAXAvR)]
      v L , v R v_L, v_R vL,vR 为左右子节点, n v n_v nv为节点样本数)
    3. 对估计集 B B B,在叶子节点 l l l 中计算:
      τ ^ l = 1 n l T ∑ i ∈ B ∩ l , T i = 1 Y i − 1 n l C ∑ i ∈ B ∩ l , T i = 0 Y i \hat{\tau}_l = \frac{1}{n_l^T} \sum_{i \in B \cap l, T_i=1} Y_i - \frac{1}{n_l^C} \sum_{i \in B \cap l, T_i=0} Y_i τ^l=nlT1iBl,Ti=1YinlC1iBl,Ti=0Yi
  • 总体效应 τ ^ ( x ) = 1 L ∑ l = 1 L τ ^ l ⋅ I ( x ∈ l ) \hat{\tau}(x) = \frac{1}{L} \sum_{l=1}^L \hat{\tau}_l \cdot \mathbb{I}(x \in l) τ^(x)=L1l=1Lτ^lI(xl)
4.2 表征学习:CFRNet的损失函数
  • 模型结构:共享底层特征提取器 f ( X ) f(X) f(X),分塔输出 Y ^ 0 = h 0 ( f ( X ) ) \hat{Y}_0 = h_0(f(X)) Y^0=h0(f(X))(控制组)和 Y ^ 1 = h 1 ( f ( X ) ) \hat{Y}_1 = h_1(f(X)) Y^1=h1(f(X))(干预组)。
  • 损失函数
    L = L pred + λ L ipm + γ L reg \mathcal{L} = \mathcal{L}_{\text{pred}} + \lambda \mathcal{L}_{\text{ipm}} + \gamma \mathcal{L}_{\text{reg}} L=Lpred+λLipm+γLreg
    其中:
    • 预测损失: L pred = ∑ i T i ⋅ MSE ( Y ^ 1 i , Y i ) + ( 1 − T i ) ⋅ MSE ( Y ^ 0 i , Y i ) \mathcal{L}_{\text{pred}} = \sum_i T_i \cdot \text{MSE}(\hat{Y}_{1i}, Y_i) + (1-T_i) \cdot \text{MSE}(\hat{Y}_{0i}, Y_i) Lpred=iTiMSE(Y^1i,Yi)+(1Ti)MSE(Y^0i,Yi)
    • IPM分布对齐损失(以MMD为例):
      L ipm = 1 n 1 2 ∑ i , j = 1 n 1 k ( f ( X i ) , f ( X j ) ) + 1 n 0 2 ∑ i , j = 1 n 0 k ( f ( X i ′ ) , f ( X j ′ ) ) − 2 n 1 n 0 ∑ i = 1 n 1 ∑ j = 1 n 0 k ( f ( X i ) , f ( X j ′ ) ) \mathcal{L}_{\text{ipm}} = \frac{1}{n_1^2} \sum_{i,j=1}^{n_1} k(f(X_i), f(X_j)) + \frac{1}{n_0^2} \sum_{i,j=1}^{n_0} k(f(X_i'), f(X_j')) - \frac{2}{n_1 n_0} \sum_{i=1}^{n_1} \sum_{j=1}^{n_0} k(f(X_i), f(X_j')) Lipm=n121i,j=1n1k(f(Xi),f(Xj))+n021i,j=1n0k(f(Xi),f(Xj))n1n02i=1n1j=1n0k(f(Xi),f(Xj))
      n 1 , n 0 n_1, n_0 n1,n0 为干预组、控制组样本数, k k k 为核函数)
    • 正则项: L reg = ∥ h 0 ∥ 2 2 + ∥ h 1 ∥ 2 2 \mathcal{L}_{\text{reg}} = \|h_0\|_2^2 + \|h_1\|_2^2 Lreg=h022+h122
4.3 CEVAE:隐变量建模未观测混淆因子
  • 生成模型
    p ( Y , T , X , Z ) = p ( Z ) p ( X ∣ Z ) p ( T ∣ X , Z ) p ( Y ∣ T , X , Z ) p(Y, T, X, Z) = p(Z) p(X \mid Z) p(T \mid X, Z) p(Y \mid T, X, Z) p(Y,T,X,Z)=p(Z)p(XZ)p(TX,Z)p(YT,X,Z)
  • 推断网络
    q ( Z ∣ X , T , Y ) = p ( Y ∣ T , X , Z ) p ( T ∣ X , Z ) p ( X ∣ Z ) p ( Z ) ∑ Z p ( Y ∣ T , X , Z ) p ( T ∣ X , Z ) p ( X ∣ Z ) p ( Z ) q(Z \mid X, T, Y) = \frac{p(Y \mid T, X, Z) p(T \mid X, Z) p(X \mid Z) p(Z)}{\sum_Z p(Y \mid T, X, Z) p(T \mid X, Z) p(X \mid Z) p(Z)} q(ZX,T,Y)=Zp(YT,X,Z)p(TX,Z)p(XZ)p(Z)p(YT,X,Z)p(TX,Z)p(XZ)p(Z)
  • 目标函数(ELBO)
    L = E q ( Z ∣ X , T , Y ) [ log ⁡ p ( Y ∣ T , X , Z ) ] − KL ( q ( Z ∣ X , T , Y ) ∥ p ( Z ) ) \mathcal{L} = \mathbb{E}_{q(Z \mid X,T,Y)} [\log p(Y \mid T, X, Z)] - \text{KL}(q(Z \mid X,T,Y) \| p(Z)) L=Eq(ZX,T,Y)[logp(YT,X,Z)]KL(q(ZX,T,Y)p(Z))

术语

变量名说明
unit(单元)干预效果研究中的最小研究对象。在一些框架下,不同时刻的同一对象被认为是不同的units。
treatment(干预)干预/治疗(T/W),施加给unit的操作。也叫做干预、介入等。在二元Treatment的情况下(即T = 0或1),Treatment组包含接受Treatment为T = 1的unit,而对照组包含接受Treatment为T = 0的unit。
do算子这是SCM里对设置treatment值的算子。比如do(t1)表示将干预设置为t1,该算子常用于阻隔(block)confounder对干预的影响
variables(变量)unit自带的一些属性,比如患者的年龄,性别,病史,血压等。这里分为pre - treatment variables和post - treatment variables
● pre - treatment variables(预干预变量/背景变量):预干预变量指不会被干预影响的变量。例如患者人口统计学,疾病史等。一般我们说的confounder就是背景变量
● post - treatment variables(后干预变量):后干预变量指会被干预影响的变量
Confounders(混淆因子/协变量)会影响treatment选择和结果的一些变量(x)。即背景变量
Treatment Effect / Causal Effect(因果效应)对unit进行不同Treatment之后unit产生的Outcome的变化,这种效应可以定义在整体层面、treatment组层面、子组层面和个体层面
● 整体层面的平均干预效果(ATE,Average Treatment Effect):ATE = E[Y(T = 1) - Y(T = 0)]
● Treatment组的平均干预效果(ATT,Average Treatment Effect on the Treated Group ):ATT = E[Y(T = 1)
potential outcome(潜在结果)施加给对象的操作所能产生的所有可能产生的结果。包含observed outcome和反事实结果。
factual outcome/Observed Outcome(观测结果)已经发生的事实,施加给对象的操作最终观测到的结果,记做Y.
counterfactual outcome(反事实结果)某次操作没有产生的结果。从唯物主义的观点来看,事物是在时刻变化的,因此实验是不可逆的。而没有观测到的结果,是不可能看到的,即为反事实。也即对某个unit未采用的其他treatment带来的潜在结果
counterfactual inference反事实推理,解决类似于“如果这个病人采用其他疗法,血压会降下来吗?”这类问题的推理
倾向分数propensity scoreP(T = 1
选择偏倚selection bias由于Confounders的存在,treatment组和对照组的分布有可能不一致,因此导致出现偏差,这也使得推理更加困难。
http://www.xdnf.cn/news/1432.html

相关文章:

  • class文件(二)
  • Vue3父子组件数据双向同步实现方法
  • canoe 利用log进行故障重现方式
  • [架构之美]Ubuntu源码部署APISIX全流程详解(含避坑指南)
  • CSS初识
  • 测试基础笔记第十天
  • c++的jsoncpp使用
  • jdk17的新特性
  • Linux命令-sar
  • Java_day25-29
  • 扣子空间 (Coze Space) 使用入门,邀请码获取指南
  • Unity 创建、读取、改写Excel表格数据
  • c++中的enum变量 和 constexpr说明符
  • 策略模式:动态切换算法的设计智慧
  • 安装win11自带linux是报错:WslRegisterDistribution failed with error: 0x800701bcErr
  • 使用rclone迁移minio文件
  • PHP 反序列化CLI 框架类PHPGGC 生成器TPYiiLaravel 等利用
  • 深入微服务核心:从架构设计到规模化
  • Openharmony 和 HarmonyOS 区别?
  • RecyclerView中实现横向左滑加载更多功能
  • 【鸿蒙HarmonyOS】深入理解router与Navigation
  • MOS管驱动电路以及阻值选取
  • ⭐Unity 开发 | 如何通过 NTP 网络时间实现精准的跨平台时间同步【附完整源码 + UI 模块 + 偏差分析】
  • UE5的 Modify Curve 蓝图节点
  • L1-107 高温补贴 - java
  • HBuilder压缩文件教程
  • 滑动窗口算法(一)
  • Python类和对象二(十一)
  • 深度学习中的黑暗角落:梯度消失与梯度爆炸问题解析
  • 制作一款打飞机游戏19:碰撞检测