当前位置：首页 > backend >正文

瓦瑟斯坦差分隐私中命题7对总变差TV的应用

backend 2025/7/3 21:13:10

在这里插入图片描述

公式36到37的推导过程详解

1. 总变差（Total Variation, TV）的定义

总变差距离是衡量两个概率分布 $P$ 和 $Q$ 差异的一种方式，其定义为：
$P - Q\|_{TV} = \sup_{A} |P(A) - Q(A)|,$
即对所有可能事件 $A$ ，两分布概率差的最大绝对值。
另一种等价形式是：
$\|P - Q\|_{TV} = \frac{1}{2} \int |p(x) - q(x)| \, dx,$
即两分布密度函数 $p (x)$ 和 $q (x)$ 的 L1 范数 的一半。

2. 总变差与耦合（Coupling）的关系

耦合定理指出，总变差距离等于在所有可能的联合分布（耦合）中，随机变量 $X$ 和 $Y$ 不相等的 最小概率：
$\inf_{\substack{X \sim P \\ Y \sim Q}} \mathbb{E}[1_{X \neq Y}] = \|P - Q\|_{TV}.$
这里的下确界（ $\inf$ ）表示寻找最优的联合分布 $\gamma(X, Y)$ ，使得 $\neq Y$ 的概率最小。

3. 公式36到37的推导步骤

给定公式36：
$\Delta_p f \cdot \inf_{\substack{X \sim \text{Lap}(0, \lambda) \\ Y \sim \text{Lap}(\Delta_p f, \lambda)}} \left[ \mathbb{E}[1_{X \neq Y}] \right]^{1/\mu},$
目标是将其转换为总变差形式。

步骤1：应用耦合定理

根据耦合定理，对拉普拉斯分布 $\text{Lap}(0, \lambda)$ 和 $\text{Lap}(\Delta_p f, \lambda)$ ，有：
$\inf_{\substack{X \sim P \\ Y \sim Q}} \mathbb{E}[1_{X \neq Y}] = \|P - Q\|_{TV}.$
因此，公式36中的下确界部分可替换为总变差距离：
$\Delta_p f \cdot \left( \|P - Q\|_{TV} \right)^{1/\mu}.$

步骤2：总变差的具体计算

对于两个拉普拉斯分布 $\text{Lap}(a, \lambda)$ 和 $\text{Lap}(b, \lambda)$ ，其密度函数为：
$\frac{1}{2\lambda} e^{-|x - a|/\lambda}, \quad q(x) = \frac{1}{2\lambda} e^{-|x - b|/\lambda}.$
总变差距离可通过积分计算：
$\|P - Q\|_{TV} = \frac{1}{2} \int_{-\infty}^\infty |p(x) - q(x)| \, dx.$
当 $a = 0$ 、 $\Delta_p f$ 时，计算得：
$\|P - Q\|_{TV} = \frac{1}{2} \left( 1 - e^{-\Delta_p f / \lambda} \right).$
（具体推导需展开积分，此处直接给出结果。）

步骤3：代入公式36

将总变差结果代入公式36，得到：
$\Delta_p f \cdot \left( \frac{1}{2} \left( 1 - e^{-\Delta_p f / \lambda} \right) \right)^{1/\mu}.$
这对应公式37的形式：
$\frac{1}{2} \Delta_p f \cdot \left( \| \text{Lap}(0, \lambda) - \text{Lap}(\Delta_p f, \lambda) \|_{TV} \right)^{1/\mu}.$

4. 关键点解释

(1) 为什么总变差出现在公式中？

总变差距离直接量化了两个分布的“最大局部差异”，而公式36中的 $\inf \mathbb{E}[1_{X \neq Y}]$ 本质是寻找最耦合下 $\neq Y$ 的最小概率，这与总变差定义一致。

(2) 为什么有系数 $\frac{1}{2}$ ？

总变差的积分定义中包含了 $\frac{1}{2}$ ，这是为了归一化结果，使其落在 $[0, 1]$ 范围内。

(3) 拉普拉斯分布的敏感性 $\Delta_p f$

$\Delta_p f$ 是 $l_p$ -敏感度，表示在相邻数据集上函数 $f$ 输出的最大 $l_p$ 范数差。此处用于调整拉普拉斯分布的均值偏移，以反映数据隐私保护中的噪声尺度。

5. 总变差与其他散度的对比

散度类型	定义	特点
总变差	$\frac{1}{2} \int \|p - q\| dx$	几何直观，但对高维分布计算困难。
KL散度	$\int p \log \frac{p}{q} dx$	不对称，对无重叠分布发散。
Wasserstein	最小运输成本	几何敏感，但对计算资源要求较高。