当前位置: 首页 > ai >正文

用对称化与chaining技术bound经验过程上确界的期望(Guntuboyina理论统计学笔记)

文章目录

  • 对称化
  • 特殊情况: F \cal F F是 Boolean 函数类
  • 覆盖数与packing number
  • 有限指标集的Chaining
  • 无限指标集的chaining
  • 引入envelope后的bound
  • 应用:有限VC维的Boolean函数类
  • 参考文献

TypeNotes
TitleTheoretical Statistics
Author(s)Aditya Guntuboyina
Year2018 Spring
LevelGraduate
LocationUC Berkeley
DepartmentDepartment of Statistics
Course Number210B
Lecture(s)L05–L09

UC Berkeley 的课程编号规则是:编号 1–99 的为初级本科课程,编号 100–199 的为高级本科课程,编号 200–299 的为研究生课程。

本课程是 UC Berkeley 理论统计的两门课之一,另外一门是 210A。老师是 UC Berkeley 的副教授。本课程有讲义,讲义typo较多,公式引用有少量错乱。

这门课的第一部分主要讲经验过程理论,讲得比较基础,优点是讲的线索清晰,并且是从动机出发的。

对称化

现在我们考虑如何bound E sup ⁡ f ∣ ( P n − P ) f ∣ {\rm E}\sup_f |(P_n - P)f| Esupf(PnP)f,需要用到对称化技巧和chaining技巧。

对称化就是把 E sup ⁡ f ∣ ( P n − P ) f ∣ {\rm E}\sup_f |(P_n - P)f| Esupf(PnP)f转变成 Rademacher 复杂度进行度量。Rademacher 复杂度是针对某个集合的,比如 F \cal F F,定义是先引入一系列相互独立且独立于 X i X_i Xi’s的 Rademacher 随机变量 ϵ i \epsilon_i ϵi’s,然后定义 F \cal F F 的 Rademacher 复杂度为
R n ( F ) : = E sup ⁡ f ∈ F 1 n ∣ ∑ i = 1 n ϵ i f ( X i ) ∣ R_n({\cal F}) := {\rm E}\sup_{f\in{\cal F}} \frac{1}{n} |\sum_{i=1}^{n} \epsilon_i f(X_i)| Rn(F):=EfFsupn1i=1nϵif(Xi)
这里的期望是对 ϵ i \epsilon_i ϵi’s和 X i X_i Xi’s求。

对称化引理说的是:
E sup ⁡ f ∈ F ∣ ( P n − P ) f ∣ ≤ 2 E sup ⁡ f ∈ F 1 n ∣ ∑ i = 1 n ϵ i f ( X i ) ∣ = 2 R n ( F ) {\rm E}\sup_{f\in{\cal F}} |(P_n - P)f| \leq 2 {\rm E}\sup_{f\in{\cal F}} \frac{1}{n} |\sum_{i=1}^{n} \epsilon_i f(X_i)| = 2R_n({\cal F}) EfFsup(PnP)f2EfFsupn1i=1nϵif(Xi)=2Rn(F)
于是,bound E sup ⁡ f ∣ ( P n − P ) f ∣ {\rm E}\sup_f |(P_n - P)f| Esupf(PnP)f的问题转化成了 bound R n ( F ) R_n({\cal F}) Rn(F)。一种 bound R n ( F ) R_n({\cal F}) Rn(F)的策略是,对于任意 X i X_i Xi’s,求 R n ( F ) R_n({\cal F}) Rn(F)的一致上界,即先将 X i X_i Xi’s视为固定的 x i x_i xi’s,计算上界,此时只需要考虑 ϵ i \epsilon_i ϵi’s的随机性。经典的做法是 chaining。

特殊情况: F \cal F F是 Boolean 函数类

现在考虑如何 bound R n ( F ) R_n({\cal F}) Rn(F)

在讲 chaining 之前,我们先考虑一种简单的特殊情况: F \cal F F是 Boolean 函数类,即里面的每个函数都是 0 / 1 0/1 0/1取值的。

首先介绍一个不等式:对于 ∣ A ∣ < ∞ |A|<\infty A<的集合 A ⊆ R n A\subseteq \mathbb{R}^n ARn,有
R n ( A ) = E sup ⁡ a ∈ A 1 n ∣ ∑ i = 1 n ϵ i a i ∣ ≤ 6 ln ⁡ ( 2 ∣ A ∣ ) n max ⁡ a ∈ A 1 n ∑ i = 1 n a i 2 R_n({A}) = {\rm E}\sup_{a \in A} \frac{1}{n} |\sum_{i=1}^{n} \epsilon_i a_i| \leq \sqrt{6} \sqrt{\frac{\ln(2|A|)}{n}} \max_{a\in A} \sqrt{\frac{1}{n} \sum_{i=1}^{n} a_i^2} Rn(A)=EaAsupn1i=1nϵiai6 nln(2∣A) aAmaxn1i=1nai2
由于 a i a_i ai’s 是固定的,随机性只来自有界随机变量 ϵ i \epsilon_i ϵi’s,因此可用 Hoeffding 不等式,再经过一系列处理即可得到上式。

对于 Boolean 函数类 F \cal F F,对任意 f ∈ F f\in{\cal F} fF,将 f ( x i ) f(x_i) f(xi)视为 a i a_i ai,则每个 f ( x i ) 2 ≤ 1 f(x_i)^2\leq 1 f(xi)21,于是 { ( f ( x 1 ) , ⋯   , f ( x n ) ) : f ∈ F } \{(f(x_1),\cdots,f(x_n)):f\in{\cal F}\} {(f(x1),,f(xn)):fF}就对应了上式的 A A A。该集合的基数最多为 2 n 2^n 2n,这个太大了,我们假设基数最多是 n n n的某个多项式形式,如 n c n^c nc,代入上式,可知随着 n → ∞ n\to\infty n
R n ( F ) ≤ 6 ( ln ⁡ 2 + c ln ⁡ n ) n = O ( ln ⁡ n n ) R_n({\cal F})\leq \sqrt{\frac{6(\ln 2 + c \ln n)}{n}} = O(\sqrt{\frac{\ln n }{n}}) Rn(F)n6(ln2+clnn) =O(n

http://www.xdnf.cn/news/8071.html

相关文章:

  • Python打卡训练营day29-类的装饰器
  • 深入学习和对比Python 列表与元组
  • 测量尺子:多功能测量工具,科技改变生活
  • PP-YOLOE-SOD学习笔记1
  • ThreadLocal线程本地变量在dubbo服务使用时候遇到的一个坑
  • Docker Compose`down`和`stop`命令的区别
  • 【RocketMQ 生产者和消费者】- 生产者启动源码-上报生产者和消费者心跳信息到 broker(3)
  • Modelsim的入门使用和Verilog编写
  • 【电流探头】LOTO电流探头线性度测量
  • Docker-mongodb
  • JavaWeb Web基础
  • 零碳办会新范式!第十届国际贸易发展论坛——生物能源和可持续发展专场,在京举办
  • 前端性能优化方案
  • 亚马逊英国站海关新规深度解读与合规指南
  • 中级统计师-统计学基础知识-第六章 回归分析
  • 快速部起一个Openwhisk平台,使用telego k8s服务部署能力内网部署
  • 中小制造企业网络安全防护指南
  • Linux Docker下安装tomcat
  • Spring3+Vue3项目中的知识点——跨域与解决方案
  • Gartner《如果有效评估Generative AI项目的投资回报》学习心得
  • DeepSeek快速搭建个人网页
  • vue3基本介绍
  • 220V转1.25V-12V输出电路Multisim仿真
  • 【设计模式】责任链+模板+工程模式使用模板
  • indicator-sysmonitor 在Ubuntu 右上角实时显示CPU/MEM/NET的利用率
  • C#对集合进行分组IGroupingout TKey, out TElement>
  • 01. Qt介绍及Qt开发环境搭建(2025.05最新官网下载方式)
  • C++初阶-list的使用2
  • AI编程: OpenAI Codex vs Google Jules vs GitHub Copilot++
  • 5G 核心网切换机制全解析:XN、N2 与移动性注册对比