当前位置: 首页 > ai >正文

牛津大学xDeepMind 自然语言处理(1)

牛津大学xDeepMind 自然语言处理 Natural Language Processing

词向量与词汇语义学 Word Vectors and Lexical Semantics
  1. 词语表示的基本问题与分布语义思想
    1. 传统词语表示(如独热向量)存在稀疏、正交、语义弱的问题,无法表达语义相似性。
    2. 分布语义核心思想:“观其伴而知其词”,即基于词语的上下文 / 使用场景生成稠密向量表示,主要方法分为基于计数、基于预测和基于任务三类。
  2. 基于计数的方法
    1. 核心流程:定义上下文词汇基C和窗口大小w,统计在语料库中,每个目标词的每个实例左右w个词范围内,上下文词汇基的出现次数,基于这些计数,形成目标词的向量表示。
    2. 相似性度量:常用内积或余弦相似度(余弦对范数不敏感,更优)。
    3. 优化:需区分信息量高的计数和高频噪声,常用 TF-IDF、PMI 等归一化方法,但存在上下文基选择等问题。
  3. 神经嵌入模型
    1. 通用思路:收集词语实例及其上下文,定义可微的分数函数和损失,通过优化得到嵌入矩阵 E。
    2. 典型模型:
      1. C&W 模型(conv+MLP):通过卷积和 MLP 处理句子嵌入,用干扰句和铰链损失训练,能捕捉相邻表示信息,但模型深、训练成本高。
      2. CBoW 模型(Transform+softmax):将上下文词嵌入相加后投影到词汇表,用 softmax 和负对数似然训练,全线性、速度快,有负采样等变体。
      3. Skip-gram 模型(Transform+softmax):用目标词预测上下文词,嵌入目标词后投影,效率高,需在效率和上下文结构化之间权衡。
  4. 神经模型与基于计数模型的比较
    1. 核心思想一致,Word2Vec 等价于基于计数模型的 PMI 矩阵分解。
    2. 经适当超参数优化后,两者性能相当。
  5. 神经方法的优势
    1. 易于学习,支持高度并行(小批量、GPU、分布式训练)。
    2. 可预测上下文的离散(如词性)和连续(如图像)特征,避免计数方法的稀疏性问题。
  6. 词表示的评估
    1. 内在评估:通过 WordSim-353、SimLex-999 等数据集测相似度,词语类比任务(如 “女王 = 国王 - 男人 + 女人”),以及嵌入可视化(T-SNE投影、最近邻)等。
    2. 外在评估:判断嵌入是否能提升其他任务(如分类、情感分析)的性能。
  7. 基于任务的嵌入学习
    1. 核心:将嵌入矩阵 E 作为神经网络参数,与网络其他参数联合训练(可从头学或预训练后微调),使嵌入适应任务需求。
    2. 典型应用:
      1. BoW 分类器:将词向量叠加作为特征,用于情感分析、文档分类等,但无法处理歧义、多义性,语义较浅。
      2. 双语特征学习:通过最大化对齐句子对的相似度(用噪声对比边际损失避免退化),使嵌入反映高层意义,提升跨语言表示能力。
    3. 局限性:任务嵌入仅捕捉任务相关信息,可能缺乏通用语义,可通过多任务学习或预训练 + 任务投影缓解,但存在挑战。
  8. 总结
    1. 词向量是文本神经网络的核心输入,可单独训练、在任务中训练或结合两者。
    2. 迁移学习中,重用预训练词向量适用于数据少或词汇覆盖低的场景;数据充足时,任务内训练嵌入更优,但可重用性降低。
RNN和语言建模
  1. 语言模型基础

    1. 定义:语言模型为词序列分配概率,满足所有可能序列的概率和为 1,可用于比较词序合理性(如翻译、语音识别)。
    2. 核心分解:基于链式法则将联合概率分解为条件概率的乘积,即p(w1,...wN)=∏n=1Np(wn∣w1,...,wn−1)p(w_1,...w_N)=∏^N_{n=1}p(w_n|w_1,...,w_{n-1})p(w1,...wN)=n=1Np(wnw1,...,wn1),核心是学习 “给定历史预测下一词” 的条件分布。
    3. 评估指标:交叉熵(衡量编码文本所需比特数)和困惑度(衡量模型对每个词的惊讶程度,perplexity=2cross−entropyperplexity=2^{cross-entropy}perplexity=2crossentropy)。
    4. 数据注意事项:需区分训练集(过去)和测试集(未来),避免数据泄露;常用数据集包括 Penn Treebank、Billion Word Corpus,WikiText 更优。
  2. 基于计数的 n-gram 语言模型

    1. 马尔可夫假设:用前k-1个词近似历史(k 阶马尔可夫模型),如 2-gram 模型假设p(w1,...,wn)≈p(w1)p(w2∣w1)p(w3∣w2)×...×p(wn∣wn−1)p(w_1,...,w_n)≈p(w_1)p(w_2|w_1)p(w_3|w_2)×...×p(w_n|w_{n-1})p(w1,...,wn)p(w1)p(w2w1)p(w3w2)×...×p(wnwn1)
    2. 概率估计:最大似然估计通过计数计算,如 3-gram 概率p(w3∣w1,w2)=count(w1,w2,w3)/count(w1,w2)p(w_3|w_1,w_2)=count(w_1,w_2,w_3)/count(w_1,w_2)p(w3w1,w2)=count(w1,w2,w3)/count(w1,w2)
    3. 平滑与回退:解决稀疏性问题,如线性插值p(wn∣wn−2,wn−1)=λ3p(wn∣wn−2,wn−1)+λ2p(wn∣wn−1)+λ1p(wn)p(w_n|w_{n-2},w_{n-1})=λ_3p(w_n|w_{n-2},w_{n-1})+λ_2p(w_n|w_{n-1})+λ_1p(w_n)p(wnwn2,wn1)=λ3p(wnwn2,wn1)+λ2p(wnwn1)+λ1p(wn)λ3+λ2+λ1=1λ_3+λ_2+λ_1 = 1λ3+λ2+λ1=1Kneser-Ney 是常用高级方法。
    4. 优缺点:可扩展性强、训练快,但无法捕捉长依赖和语义相似性(如 “cat” 与 “dog”)。
  3. 神经 n-gram 语言模型

    1. 模型结构:用前馈网络处理固定 n-gram 历史(如 trigram 的wn−2,wn−1w_{n-2},w_{n-1}wn2,wn1),通过嵌入层将独热向量转为稠密向量,经隐藏层后用 softmax 输出下一词概率。
    2. 训练:以交叉熵为损失,通过反向传播优化参数,各时间步梯度独立可并行计算。
    3. 优缺点:对未见过的 n-gram 泛化更好,但对已见过的 n-gram 性能略差;模型参数规模小于传统 n-gram,但仍受限于固定 n-gram 长度,无法捕捉长距离依赖,且参数随 n-gram 大小增加而增长。
  4. 循环神经网络语言模型(RNN LM)

    1. 模型结构:抛弃固定 n-gram 历史,通过隐藏状态hn=g(V[xn;hn−1]+c)h_n=g(V[x_n;h_{n-1}]+c)hn=g(V[xn;hn1]+c)压缩整个历史,用y^n=Whn+b\hat{y}_n=Wh_n+by^n=Whn+b和 softmax 输出下一词概率,实现对任意长度历史的建模。
    2. 训练:通过时间反向传播(BPTT)计算梯度,需考虑各时间步梯度的依赖关系;截断时间反向传播(TBPTT)通过固定时间步截断依赖,提高计算效率。
    3. 复杂度与批处理:BPTT 计算量与序列长度线性相关,TBPTT 为常数;批处理在 GPU 上可加速矩阵运算,但序列长度不一致时效率较低。
    4. 优缺点:能表示无限依赖,参数规模不随依赖长度增长(但随隐藏层容量增加);但难以学习长距离依赖,且隐藏层扩大会导致计算和内存成本二次增长。
  5. 偏差与方差权衡

    1. n-gram 模型:偏差高(固定历史近似)但方差低(依赖高频计数)。
    2. RNN 模型:大幅降低偏差(捕捉全历史),但可能增加方差,需通过优化平衡。
  6. 长距离依赖与梯度问题

    1. 核心挑战:简单 RNN 理论上可表示长距离依赖,但实际中因循环权重VhV_hVh的重复乘法导致梯度消失(特征值 <1)或爆炸(特征值> 1),无法有效学习长距离关联。
    2. 非线性影响:激活函数(如 tanh、sigmoid)的导数进一步缩小梯度,加剧问题。
  7. 门控循环网络(LSTM 与 GRU)

    1. LSTM:通过输入门(ini_nin)、遗忘门(fnf_nfn)、输出门(ono_non)和细胞状态cnc_ncn控制信息流动,细胞状态通过加法更新(减轻梯度衰减),隐藏状态hnh_nhn由输出门调制,有效捕捉长依赖。
    2. GRU:简化 LSTM 结构,合并输入门和遗忘门为更新门(znz_nzn),新增重置门(rnr_nrn)控制历史信息的使用,参数更少,计算效率更高。
    3. 优缺点:门控机制显著缓解梯度问题,是神经机器翻译、语音识别等任务的关键;但参数和计算量多于普通 RNN,每个参数的记忆容量较低。
  8. 深度循环神经网络 Deep RNN LMs

    1. 扩展方式:通过增加网络深度(空间维度)或时间维度深度提升表示能力,避免单纯扩大隐藏层导致的二次成本增长。
    2. 典型结构:多层 RNN(空间深度)和循环高速公路网络(时间深度,类似 GRU 的深度单元),在语言建模中表现优异。
  9. 大词汇量处理

    1. 核心瓶颈:softmax 计算p^n=softmax(Whn+b)\hat{p}_n=softmax(Wh_n+b)p^n=softmax(Whn+b)的成本随词汇量VVV线性增长,成为效率瓶颈。
    2. 解决方案:
      1. 短列表与混合模型:高频词用神经 LM,低频词用 n-gram,但损失泛化能力。
      2. 采样与近似梯度:噪声对比估计(NCE)将问题转为二分类,重要性采样(IS)用多分类,降低训练成本但不影响测试。
      3. 词汇分解:一级分类(如布朗聚类)加速V\sqrt{V}V,树结构分解(如二叉树)加速logVlogVlogV,平衡计算效率与性能。
    3. 子词建模:以字符或语素为单位,消除未登录词,捕捉形态特征,但序列更长且依赖距离更远。
  10. 正则化

    Dropout:仅应用于非循环连接,避免循环掩码导致的信息丢失;

    贝叶斯 Dropout 通过绑定循环掩码并在评估时采样,增强泛化。

  11. 总结与核心观点

    1. 长距离依赖:门控网络(LSTM/GRU)是解决梯度问题、捕捉长依赖的主流方案。
    2. 模型扩展:深度 RNN 在空间 / 时间维度扩展,以线性成本提升容量;大词汇量通过分解或采样优化 softmax 效率。
    3. 权衡关系:语言建模需平衡偏差与方差(n-gram vs RNN)、性能与效率(模型容量 vs 计算成本)、泛化与针对性(通用表示 vs 任务适配)。
http://www.xdnf.cn/news/18094.html

相关文章:

  • Mysql——前模糊索引失效原因及解决方式
  • C++多线程编程深度解析【C++进阶每日一学】
  • 部署 HAProxy 高可用
  • 将 iPhone 连接到 Windows 11 的完整指南
  • 蛋糕销售管理系统设计与实现
  • MongoDB Windows 系统实战手册:从配置到数据处理入门
  • 【MongoDB】多种聚合操作详解,案例分析
  • Handler以及AsyncTask知识点详解
  • 北斗气象站:能够实现气象数据的实时采集、传输与智能分析
  • 20. 云计算-云服务模型
  • 什么叫做 “可迭代的产品矩阵”?如何落地?​
  • 【前端面试题】JavaScript 核心知识点解析(第二十二题到第六十一题)
  • 使用 Zed + Qwen Code 搭建轻量化 AI 编程 IDE
  • Zookeeper 在 Kafka 中扮演了什么角色?
  • CVPR 2025|英伟达联合牛津大学提出面向3D医学成像的统一分割基础模型
  • 决策树总结
  • CloudBase AI ToolKit + VSCode Copilot:打造高效智能云端开发新体验
  • 在 CentOS 7 上使用 LAMP 架构部署 WordPress
  • CSS:水平垂直居中
  • Java基础(九):Object核心类深度剖析
  • GPT-5在辅助论文写作方面,有哪些进步?
  • 10CL016YF484C8G Altera FPGA Cyclone
  • 千岑智能亮相CIVS2025:国产仿真平台突破技术壁垒,赋能智能汽车产学研融合
  • 【GM3568JHF】FPGA+ARM异构开发板烧录指南
  • 制作全流程对比:侗家灰水粽VS布依族草灰粽的8道工序差异
  • 项目实战——矿物识别系统(利用机器学习从化学元素数据中识别矿物,从数据到分类模型)
  • Linux系统等保三级安全加固执行手册(ReahtCentosKylin)
  • Android中flavor的使用
  • (第十八期)图像标签的三个常用属性:width、height、border
  • 【iOS】锁的原理