The Algorithmic Foundations of Differential Privacy - 3(2)
引理 3.18.
假设随机变量 YYY 和 ZZZ 满足
D∞(Y∥Z)≤ε且D∞(Z∥Y)≤ε. D_\infty(Y\|Z) \leq \varepsilon \quad \text{且} \quad D_\infty(Z\|Y) \leq \varepsilon. D∞(Y∥Z)≤ε且D∞(Z∥Y)≤ε.
那么有:
D(Y∥Z)≤ε⋅(eε−1). D(Y\|Z) \leq \varepsilon \cdot (e^\varepsilon - 1). D(Y∥Z)≤ε⋅(eε−1).
证明.
我们知道对于任意 YYY 和 ZZZ,总有 D(Y∥Z)≥0D(Y\|Z) \geq 0D(Y∥Z)≥0(来自 “对数和不等式”)。因此只需对 D(Y∥Z)+D(Z∥Y)D(Y\|Z) + D(Z\|Y)D(Y∥Z)+D(Z∥Y) 进行上界估计:
D(Y∥Z)≤D(Y∥Z)+D(Z∥Y)=∑yPr[Y=y]⋅lnPr[Y=y]Pr[Z=y]+lnPr[Z=y]Pr[Y=y]+(Pr[Z=y]−Pr[Y=y])⋅lnPr[Z=y]Pr[Y=y]≤∑y[0+∣Pr[Z=y]−Pr[Y=y]∣⋅ε]=ε⋅∑y(max{ Pr[Y=y],Pr[Z=y]}−min{ Pr[Y=y],Pr[Z=y]})≤ε⋅∑y((eε−1)⋅min{ Pr[Y=y],Pr[Z=y]})≤ε⋅(eε−1). \begin{aligned} D(Y\|Z) &\leq D(Y\|Z) + D(Z\|Y) \\ &= \sum_y \Pr[Y=y]\cdot \ln \frac{\Pr[Y=y]}{\Pr[Z=y]} + \ln \frac{\Pr[Z=y]}{\Pr[Y=y]} \\ &\quad + (\Pr[Z=y] - \Pr[Y=y]) \cdot \ln \frac{\Pr[Z=y]}{\Pr[Y=y]} \\ &\leq \sum_y \big[0 + |\Pr[Z=y] - \Pr[Y=y]|\cdot \varepsilon \big] \\ &= \varepsilon \cdot \sum_y \Big(\max\{\Pr[Y=y], \Pr[Z=y]\} - \min\{\Pr[Y=y], \Pr[Z=y]\}\Big) \\ &\leq \varepsilon \cdot \sum_y \Big((e^\varepsilon - 1) \cdot \min\{\Pr[Y=y], \Pr[Z=y]\}\Big) \\ &\leq \varepsilon \cdot (e^\varepsilon - 1). \end{aligned} D(Y∥Z)≤D(Y∥Z)+D(Z∥Y)=y∑Pr[Y=y]⋅lnPr[Z=y]Pr[Y=y]+lnPr[Y=y]Pr[Z=y]+(Pr[Z=y]−Pr[Y=y])⋅lnPr[Y=y]Pr[Z=y]≤y∑[0+∣Pr[Z=y]−Pr[Y=y]∣⋅ε]=ε⋅y∑(max{ Pr[Y=y],Pr[Z=y]}−min{ Pr[Y=y],Pr[Z=y]})≤ε⋅y∑((eε−1)⋅min{ Pr[Y=y],Pr[Z=y]})≤ε⋅(eε−1).
引理 3.19 (Azuma 不等式).
设 C1,…,CkC_1, \dots, C_kC1,…,Ck 是实值随机变量,满足:
-
对每个 i∈[k]i \in [k]i∈[k],Pr[∣Ci∣≤α]=1\Pr[|C_i| \leq \alpha] = 1Pr[∣Ci∣≤α]=1;
-
对任意 (c1,…,ci−1)∈Supp(C1,…,Ci−1)(c_1, \dots, c_{i-1}) \in \text{Supp}(C_1,\dots,C_{i-1})(c1,…,ci−1)∈Supp(C1,…,Ci−1),有
E[Ci∣C1=c1,…,Ci−1=ci−1]≤β. \mathbb{E}[C_i \mid C_1=c_1,\dots,C_{i-1}=c_{i-1}] \leq \beta. E[Ci∣C1=c1,…,Ci−1=ci−1]≤β.
那么对任意 z>0z > 0z>0,有:
Pr [∑i=1kCi>kβ+zkα]≤e−z2/2. \Pr\!\left[\sum_{i=1}^k C_i > k\beta + z\sqrt{k}\alpha \right] \leq e^{-z^2/2}. Pr[i=1∑kCi>kβ+zkα]≤e−z2/2.
3.5.2 高级合成(Advanced composition)
除了允许参数 (ε,δ)(\varepsilon, \delta)(ε,δ) 以更缓慢的速度退化之外,我们还希望我们的定理能够处理更加复杂的合成形式。在开始之前,我们必须先讨论这里“合成”的确切含义。
我们希望定义的合成能够覆盖以下两种重要场景:
-
对同一数据库反复使用差分隐私算法。
这既包括多次重复使用同一个机制,也包括通过将不同的差分隐私模块组合在一起,构造出更复杂的差分隐私算法。 -
对不同数据库反复使用差分隐私算法,而这些数据库可能仍然包含与同一个个体相关的信息。
这让我们可以推理单个个体的累计隐私损失,即便其数据分散在多个数据库中,而这些数据库可能被分别用于不同的差分隐私计算。由于新数据库会不断产生,并且对手甚至可能影响这些数据库的组成,这个问题与反复查询同一个固定数据库是本质上不同的。
因此,我们需要对 自适应合成 建模:在这种情况下,对手不仅能影响未来机制的输入数据库,还能影响对这些机制的查询。
令 F\mathcal{F}F 表示一族数据库访问机制(例如,F\mathcal{F}F 可以是所有 ε\varepsilonε-差分隐私机制的集合)。对于一个概率型对手 A\mathcal{A}A,我们考虑如下两个实验:实验 0 和 实验 1。
实验 bbb:针对机制族 F\mathcal{F}F 和对手 A\mathcal{A}A:
对于 i=1,…,ki = 1, \dots, ki=1,…,k:
-
A\mathcal{A}A 输出一对相邻数据库 xi0x^0_ixi0 和 xi1x^1_ixi1,一个机制 Mi∈FM_i \in \mathcal{F}Mi∈F,以及参数 wiw_iwi。
-
A\mathcal{A}A 接收输出 yi∈Ry_i \in \mathcal{R}yi∈R,其中
yi∼Mi(wi,xib). y_i \sim M_i(w_i, x^b_i). yi∼Mi(wi,xib).
在整个实验过程中,我们允许对手 A\mathcal{A}A 保持有状态,因此它可以根据先前机制的输出自适应地选择后续的数据库、机制和参数。我们定义 A\mathcal{A}A 对实验的**视图(view)**为 A\mathcal{A}A 的随机硬币投掷结果以及所有机制的输出 (y1,…,yk)(y_1,\dots,y_k)(y1,…,yk)。 (因为 xijx^j_ixij、MiM_iMi 和 wiw_iwi 都可以从这些信息中重构出来。)
直观理解:
考虑一个对手,它总是选择 xi0x^0_ixi0 包含 Bob 的数据,而 xi1x^1_ixi1 与 xi0x^0_ixi0 仅在删除 Bob 的数据上有所不同。那么:
- 实验 0 可以看作是真实世界(Bob 允许其数据被多次发布使用);
- 实验 1 可以看作是理想世界(发布结果不依赖 Bob 的数据)。
我们的隐私定义依然要求这两个实验“接近”,就像差分隐私原始定义中所要求的那样。对 Bob 的直观保证是:即使观察到所有 kkk 次机制的输出,对手也“无法分辨” Bob 的数据是否曾被使用。
定义 3.7.
我们称数据库访问机制族 F\mathcal{F}F 在 kkk 次自适应合成 下满足 ε\varepsilonε-差分隐私,如果对任意对手 A\mathcal{A}A,都有:
D∞(V0∥V1)≤ε, D_\infty(V^0 \| V^1) \leq \varepsilon, D∞(V0∥V1)≤ε,
其中 VbV^bVb 表示对手 A\mathcal{A}A 在上述 kkk 次合成实验 bbb 中的视图。
类似地,如果是 (ε,δ)(\varepsilon, \delta)(ε,δ)-差分隐私,则要求
D∞δ(V0∥V1)≤ε. D^\delta_\infty(V^0 \| V^1) \leq \varepsilon. D∞δ(V0∥V1)≤ε.
定理 3.20 (高级合成定理,Advanced Composition).
对任意 ε,δ,δ′≥0\varepsilon, \delta, \delta' \geq 0ε,δ,δ′≥0,若一类机制满足 (ε,δ)(\varepsilon, \delta)(ε,δ)-差分隐私,则在 kkk 次自适应合成 下,该类机制满足:
(ε′, kδ+δ′)-差分隐私, (\varepsilon', \; k\delta + \delta')\text{-差分隐私}, (ε′,kδ+δ′)-差分隐私,
其中:
ε′=2kln(1/δ′)⋅ε+kε(eε−1). \varepsilon' = \sqrt{2k \ln(1/\delta')} \cdot \varepsilon + k \varepsilon (e^\varepsilon - 1). ε′=2kln(1/δ′)⋅ε+kε(eε−1).
证明。 对手 AAA 的一个视图由一个元组表示
v=(r,y1,…,yk), v = (r, y_1, \ldots, y_k), v=(r,y1,…,yk),
其中 rrr 是 AAA 的随机币掷结果,而 y1,…,yky_1, \ldots, y_ky1,…,yk 是机制 M1,…,MkM_1, \ldots, M_kM1,…,Mk 的输出。
定义集合
B={ v:Pr[V0=v]>eε′⋅Pr[V1=v]}. B = \{ v : \Pr[V_0 = v] > e^{\varepsilon'} \cdot \Pr[V_1 = v] \}. B={ v:Pr[V0=v]>eε′⋅Pr[V1=v]}.
我们将证明 Pr[V0∈B]≤δ\Pr[V_0 \in B] \leq \deltaPr[V0∈B]≤δ。因此对于任意集合 SSS,有
Pr[V0∈S]≤Pr[V0∈B]+Pr[V0∈(S∖B)]≤δ+eε′⋅Pr[V1∈S]. \Pr[V_0 \in S] \leq \Pr[V_0 \in B] + \Pr[V_0 \in (S \setminus B)] \\ \leq \delta + e^{\varepsilon'} \cdot \Pr[V_1 \in S]. Pr[V0∈S]≤Pr[V0∈B]+Pr[V0∈(S∖B)]≤δ+eε′⋅Pr[V1∈S].
这等价于说
Dδ∞(V0∥V1)≤ε′. D^\infty_\delta (V_0 \parallel V_1) \leq \varepsilon'. Dδ∞(V0∥V1)≤ε′.
剩下的就是证明 Pr[V0∈B]≤δ\Pr[V_0 \in B] \leq \deltaPr[V0∈B]≤δ。
设随机变量
V0=(R0,Y10,…,Yk0) V_0 = (R_0, Y^0_1, \ldots, Y^0_k) V0=(R0,Y10,…,Yk0)
表示实验 0 中 AAA 的视图,
V1=(R1,Y11,…,Yk1) V_1 = (R_1, Y^1_1, \ldots, Y^1_k) V1=(R1,Y11,…,Yk1)
表示实验 1 中 AAA 的视图。
那么对于一个固定的视图
v=(r,y1,…,yk), v = (r, y_1, \ldots, y_k), v=(r,y1,…,yk),
我们有:
lnPr[V0=v]Pr[V1=v]=ln(Pr[R0=r]Pr[R1=r]∏i=1kPr[Yi0=yi∣R0=r,Y10=y1,…,Yi−10=yi−1]Pr[Yi1=yi∣R1=r,Y11=y1,…,Yi−11=yi−1])=∑i=1klnPr[Yi0=yi∣R0=r,Y10=y1,…,Yi−10=yi−1]Pr[Yi1=yi∣R1=r,Y11=y1,…,Yi−11=yi−1]=∑i=1kci(r,y1,…,yi). \ln \frac{\Pr[V_0 = v]}{\Pr[V_1 = v]} = \ln (\frac{\Pr[R_0 = r]}{\Pr[R_1 = r]} \prod_{i=1}^k \frac{\Pr[Y^0_i = y_i \mid R_0 = r, Y^0_1 = y_1, \ldots, Y^0_{i-1} = y_{i-1}]}{\Pr[Y^1_i = y_i \mid R_1 = r, Y^1_1 = y_1, \ldots, Y^1_{i-1} = y_{i-1}]})\\ = \sum_{i=1}^k \ln \frac{\Pr[Y^0_i = y_i \mid R_0 = r, Y^0_1 = y_1, \ldots, Y^0_{i-1} = y_{i-1}]}{\Pr[Y^1_i = y_i \mid R_1 = r, Y^1_1 = y_1, \ldots, Y^1_{i-1} = y_{i-1}]} \\ = \sum_{i=1}^k c_i(r, y_1, \ldots, y_i). lnPr[V1=v]Pr[V0