当前位置: 首页 > news >正文

The Algorithmic Foundations of Differential Privacy - 3(2)

引理 3.18.
假设随机变量 YYYZZZ 满足

D∞(Y∥Z)≤ε且D∞(Z∥Y)≤ε. D_\infty(Y\|Z) \leq \varepsilon \quad \text{且} \quad D_\infty(Z\|Y) \leq \varepsilon. D(YZ)εD(ZY)ε.

那么有:

D(Y∥Z)≤ε⋅(eε−1). D(Y\|Z) \leq \varepsilon \cdot (e^\varepsilon - 1). D(YZ)ε(eε1).

证明.
我们知道对于任意 YYYZZZ,总有 D(Y∥Z)≥0D(Y\|Z) \geq 0D(YZ)0(来自 “对数和不等式”)。因此只需对 D(Y∥Z)+D(Z∥Y)D(Y\|Z) + D(Z\|Y)D(YZ)+D(ZY) 进行上界估计:

D(Y∥Z)≤D(Y∥Z)+D(Z∥Y)=∑yPr⁡[Y=y]⋅ln⁡Pr⁡[Y=y]Pr⁡[Z=y]+ln⁡Pr⁡[Z=y]Pr⁡[Y=y]+(Pr⁡[Z=y]−Pr⁡[Y=y])⋅ln⁡Pr⁡[Z=y]Pr⁡[Y=y]≤∑y[0+∣Pr⁡[Z=y]−Pr⁡[Y=y]∣⋅ε]=ε⋅∑y(max⁡{ Pr⁡[Y=y],Pr⁡[Z=y]}−min⁡{ Pr⁡[Y=y],Pr⁡[Z=y]})≤ε⋅∑y((eε−1)⋅min⁡{ Pr⁡[Y=y],Pr⁡[Z=y]})≤ε⋅(eε−1). \begin{aligned} D(Y\|Z) &\leq D(Y\|Z) + D(Z\|Y) \\ &= \sum_y \Pr[Y=y]\cdot \ln \frac{\Pr[Y=y]}{\Pr[Z=y]} + \ln \frac{\Pr[Z=y]}{\Pr[Y=y]} \\ &\quad + (\Pr[Z=y] - \Pr[Y=y]) \cdot \ln \frac{\Pr[Z=y]}{\Pr[Y=y]} \\ &\leq \sum_y \big[0 + |\Pr[Z=y] - \Pr[Y=y]|\cdot \varepsilon \big] \\ &= \varepsilon \cdot \sum_y \Big(\max\{\Pr[Y=y], \Pr[Z=y]\} - \min\{\Pr[Y=y], \Pr[Z=y]\}\Big) \\ &\leq \varepsilon \cdot \sum_y \Big((e^\varepsilon - 1) \cdot \min\{\Pr[Y=y], \Pr[Z=y]\}\Big) \\ &\leq \varepsilon \cdot (e^\varepsilon - 1). \end{aligned} D(YZ)D(YZ)+D(ZY)=yPr[Y=y]lnPr[Z=y]Pr[Y=y]+lnPr[Y=y]Pr[Z=y]+(Pr[Z=y]Pr[Y=y])lnPr[Y=y]Pr[Z=y]y[0+Pr[Z=y]Pr[Y=y]ε]=εy(max{ Pr[Y=y],Pr[Z=y]}min{ Pr[Y=y],Pr[Z=y]})εy((eε1)min{ Pr[Y=y],Pr[Z=y]})ε(eε1).


引理 3.19 (Azuma 不等式).
C1,…,CkC_1, \dots, C_kC1,,Ck 是实值随机变量,满足:

  1. 对每个 i∈[k]i \in [k]i[k]Pr⁡[∣Ci∣≤α]=1\Pr[|C_i| \leq \alpha] = 1Pr[Ciα]=1

  2. 对任意 (c1,…,ci−1)∈Supp(C1,…,Ci−1)(c_1, \dots, c_{i-1}) \in \text{Supp}(C_1,\dots,C_{i-1})(c1,,ci1)Supp(C1,,Ci1),有

    E[Ci∣C1=c1,…,Ci−1=ci−1]≤β. \mathbb{E}[C_i \mid C_1=c_1,\dots,C_{i-1}=c_{i-1}] \leq \beta. E[CiC1=c1,,Ci1=ci1]β.

那么对任意 z>0z > 0z>0,有:

Pr⁡ ⁣[∑i=1kCi>kβ+zkα]≤e−z2/2. \Pr\!\left[\sum_{i=1}^k C_i > k\beta + z\sqrt{k}\alpha \right] \leq e^{-z^2/2}. Pr[i=1kCi>kβ+zk α]ez2/2.


3.5.2 高级合成(Advanced composition)

除了允许参数 (ε,δ)(\varepsilon, \delta)(ε,δ) 以更缓慢的速度退化之外,我们还希望我们的定理能够处理更加复杂的合成形式。在开始之前,我们必须先讨论这里“合成”的确切含义。

我们希望定义的合成能够覆盖以下两种重要场景:

  1. 对同一数据库反复使用差分隐私算法
    这既包括多次重复使用同一个机制,也包括通过将不同的差分隐私模块组合在一起,构造出更复杂的差分隐私算法。

  2. 对不同数据库反复使用差分隐私算法,而这些数据库可能仍然包含与同一个个体相关的信息。
    这让我们可以推理单个个体的累计隐私损失,即便其数据分散在多个数据库中,而这些数据库可能被分别用于不同的差分隐私计算。由于新数据库会不断产生,并且对手甚至可能影响这些数据库的组成,这个问题与反复查询同一个固定数据库是本质上不同的。

因此,我们需要对 自适应合成 建模:在这种情况下,对手不仅能影响未来机制的输入数据库,还能影响对这些机制的查询。

F\mathcal{F}F 表示一族数据库访问机制(例如,F\mathcal{F}F 可以是所有 ε\varepsilonε-差分隐私机制的集合)。对于一个概率型对手 A\mathcal{A}A,我们考虑如下两个实验:实验 0实验 1


实验 bbb:针对机制族 F\mathcal{F}F 和对手 A\mathcal{A}A
对于 i=1,…,ki = 1, \dots, ki=1,,k

  1. A\mathcal{A}A 输出一对相邻数据库 xi0x^0_ixi0xi1x^1_ixi1,一个机制 Mi∈FM_i \in \mathcal{F}MiF,以及参数 wiw_iwi

  2. A\mathcal{A}A 接收输出 yi∈Ry_i \in \mathcal{R}yiR,其中

    yi∼Mi(wi,xib). y_i \sim M_i(w_i, x^b_i). yiMi(wi,xib).

在整个实验过程中,我们允许对手 A\mathcal{A}A 保持有状态,因此它可以根据先前机制的输出自适应地选择后续的数据库、机制和参数。我们定义 A\mathcal{A}A 对实验的**视图(view)**为 A\mathcal{A}A 的随机硬币投掷结果以及所有机制的输出 (y1,…,yk)(y_1,\dots,y_k)(y1,,yk)。 (因为 xijx^j_ixijMiM_iMiwiw_iwi 都可以从这些信息中重构出来。)

直观理解:
考虑一个对手,它总是选择 xi0x^0_ixi0 包含 Bob 的数据,而 xi1x^1_ixi1xi0x^0_ixi0 仅在删除 Bob 的数据上有所不同。那么:

  • 实验 0 可以看作是真实世界(Bob 允许其数据被多次发布使用);
  • 实验 1 可以看作是理想世界(发布结果不依赖 Bob 的数据)。

我们的隐私定义依然要求这两个实验“接近”,就像差分隐私原始定义中所要求的那样。对 Bob 的直观保证是:即使观察到所有 kkk 次机制的输出,对手也“无法分辨” Bob 的数据是否曾被使用。


定义 3.7.
我们称数据库访问机制族 F\mathcal{F}Fkkk 次自适应合成 下满足 ε\varepsilonε-差分隐私,如果对任意对手 A\mathcal{A}A,都有:

D∞(V0∥V1)≤ε, D_\infty(V^0 \| V^1) \leq \varepsilon, D(V0V1)ε,

其中 VbV^bVb 表示对手 A\mathcal{A}A 在上述 kkk 次合成实验 bbb 中的视图。

类似地,如果是 (ε,δ)(\varepsilon, \delta)(ε,δ)-差分隐私,则要求

D∞δ(V0∥V1)≤ε. D^\delta_\infty(V^0 \| V^1) \leq \varepsilon. Dδ(V0V1)ε.


定理 3.20 (高级合成定理,Advanced Composition).
对任意 ε,δ,δ′≥0\varepsilon, \delta, \delta' \geq 0ε,δ,δ0,若一类机制满足 (ε,δ)(\varepsilon, \delta)(ε,δ)-差分隐私,则在 kkk 次自适应合成 下,该类机制满足:

(ε′,  kδ+δ′)-差分隐私, (\varepsilon', \; k\delta + \delta')\text{-差分隐私}, (ε,kδ+δ)-差分隐私,

其中:

ε′=2kln⁡(1/δ′)⋅ε+kε(eε−1). \varepsilon' = \sqrt{2k \ln(1/\delta')} \cdot \varepsilon + k \varepsilon (e^\varepsilon - 1). ε=2kln(1/δ) ε+kε(eε1).


证明。 对手 AAA 的一个视图由一个元组表示

v=(r,y1,…,yk), v = (r, y_1, \ldots, y_k), v=(r,y1,,yk),

其中 rrrAAA 的随机币掷结果,而 y1,…,yky_1, \ldots, y_ky1,,yk 是机制 M1,…,MkM_1, \ldots, M_kM1,,Mk 的输出。

定义集合

B={ v:Pr⁡[V0=v]>eε′⋅Pr⁡[V1=v]}. B = \{ v : \Pr[V_0 = v] > e^{\varepsilon'} \cdot \Pr[V_1 = v] \}. B={ v:Pr[V0=v]>eεPr[V1=v]}.

我们将证明 Pr⁡[V0∈B]≤δ\Pr[V_0 \in B] \leq \deltaPr[V0B]δ。因此对于任意集合 SSS,有

Pr⁡[V0∈S]≤Pr⁡[V0∈B]+Pr⁡[V0∈(S∖B)]≤δ+eε′⋅Pr⁡[V1∈S]. \Pr[V_0 \in S] \leq \Pr[V_0 \in B] + \Pr[V_0 \in (S \setminus B)] \\ \leq \delta + e^{\varepsilon'} \cdot \Pr[V_1 \in S]. Pr[V0S]Pr[V0B]+Pr[V0(SB)]δ+eεPr[V1S].

这等价于说

Dδ∞(V0∥V1)≤ε′. D^\infty_\delta (V_0 \parallel V_1) \leq \varepsilon'. Dδ(V0V1)ε.

剩下的就是证明 Pr⁡[V0∈B]≤δ\Pr[V_0 \in B] \leq \deltaPr[V0B]δ

设随机变量

V0=(R0,Y10,…,Yk0) V_0 = (R_0, Y^0_1, \ldots, Y^0_k) V0=(R0,Y10,,Yk0)

表示实验 0 中 AAA 的视图,

V1=(R1,Y11,…,Yk1) V_1 = (R_1, Y^1_1, \ldots, Y^1_k) V1=(R1,Y11,,Yk1)

表示实验 1 中 AAA 的视图。

那么对于一个固定的视图

v=(r,y1,…,yk), v = (r, y_1, \ldots, y_k), v=(r,y1,,yk),

我们有:

ln⁡Pr⁡[V0=v]Pr⁡[V1=v]=ln⁡(Pr⁡[R0=r]Pr⁡[R1=r]∏i=1kPr⁡[Yi0=yi∣R0=r,Y10=y1,…,Yi−10=yi−1]Pr⁡[Yi1=yi∣R1=r,Y11=y1,…,Yi−11=yi−1])=∑i=1kln⁡Pr⁡[Yi0=yi∣R0=r,Y10=y1,…,Yi−10=yi−1]Pr⁡[Yi1=yi∣R1=r,Y11=y1,…,Yi−11=yi−1]=∑i=1kci(r,y1,…,yi). \ln \frac{\Pr[V_0 = v]}{\Pr[V_1 = v]} = \ln (\frac{\Pr[R_0 = r]}{\Pr[R_1 = r]} \prod_{i=1}^k \frac{\Pr[Y^0_i = y_i \mid R_0 = r, Y^0_1 = y_1, \ldots, Y^0_{i-1} = y_{i-1}]}{\Pr[Y^1_i = y_i \mid R_1 = r, Y^1_1 = y_1, \ldots, Y^1_{i-1} = y_{i-1}]})\\ = \sum_{i=1}^k \ln \frac{\Pr[Y^0_i = y_i \mid R_0 = r, Y^0_1 = y_1, \ldots, Y^0_{i-1} = y_{i-1}]}{\Pr[Y^1_i = y_i \mid R_1 = r, Y^1_1 = y_1, \ldots, Y^1_{i-1} = y_{i-1}]} \\ = \sum_{i=1}^k c_i(r, y_1, \ldots, y_i). lnPr[V1=v]Pr[V0

http://www.xdnf.cn/news/1463851.html

相关文章:

  • Windows Server2012 R2 安装.NET Framework 3.5
  • 安科瑞基站智慧运维云平台:安全管控与节能降耗双效赋能
  • python库 Py2app 的详细使用(将 Python 脚本变为 MacOS 独立软件包)
  • MacOS 15.6 编译SDL3 Android平台多架构so库
  • 【NVIDIA AIQ】自定义函数实践
  • windows安装flash-attn记录
  • 在 Java Web 项目中优雅地实现验证码拦截与校验
  • 新闻丨重庆两江新区党工委副书记、管委会主任许宏球一行莅临华院计算考察指导
  • Java 内存模型与垃圾回收机制详解
  • 迅为RK3568开发板OpenHarmonyv3.2-Beta4版本测试-命令终端
  • AI在目前会议直播系统中应用
  • CSS 选择器的优先级/层叠性
  • watchEffect 与 watch的区别
  • 双轴倾角传感器厂家与物联网角度传感器应用全解析
  • MySQL】从零开始了解数据库开发 --- 表的操作
  • 盘点完今年CoRL最火的VLA论文,发现最强的机器人,竟是用“假数据”喂大的
  • 前端视觉交互设计全解析:从悬停高亮到多维交互体系(含代码 + 图表)
  • “我店”模式:热潮中的商机还是泡沫陷阱?深度解析当前入局可行性
  • 阿里云vs腾讯云按量付费服务器
  • 腾讯云大模型训练平台
  • BigDecimal的使用
  • 【AndroidStudio】官网下载免安装版,AndroidStudio压缩版的配置和使用
  • 华为网路设备学习-32(BGP协议 七)路由反射器与联邦
  • 中小企业数字化转型卡在哪?选对AI工具+用好企业微信,人力成本直降70%
  • SQLalachemy 错误 - Lost connection to MySQL server during query
  • 功能强大的多线程端口扫描工具,支持批量 IP 扫描、多种端口格式输入、扫描结果美化导出,适用于网络安全检测与端口监控场景
  • 基于SpringBoot的旅游管理系统的设计与实现(代码+数据库+LW)
  • 零基础直奔HCIE?先打好基础,后续才更轻松!
  • Redis 深度解析:数据结构、持久化与集群
  • 【Linux手册】动静态库:从原理到制作