牛津大学xDeepMind 自然语言处理(3)
条件语言模型
-
无条件语言模型
- 概率计算:通过链式法则分解为预测下一词概率(将语言建模问题简化为建模给定前面词语历史的下一个词的概率)
- 基于循环神经网络的无条件语言模型:根据历史词语预测下一个词的概率
-
条件语言模型
- 定义:在给定某些条件上下文xxx的情况下为词序列w=(w1,w2,...,wl)w=(w_1,w_2,...,w_l)w=(w1,w2,...,wl)分配概率:p(w∣x)=∏t=1lp(wt∣x,w1,w2,...,wt−1)p(w|x) = ∏_{t=1}^lp(w_t|x,w_1,w_2,...,w_{t-1})p(w∣x)=∏t=1lp(wt∣x,w1,w2,...,wt−1)
- 训练数据:需成对样本{(xi,wi)}i=1N\{(x_i,w_i)\}^N_{i=1}{(xi,wi)}i=1N,部分任务数据充足,相对大量的数据用于翻译、摘要、标题生成、语音识别
- 算法挑战:最优输出难寻,需近似方法
- 评估:交叉熵困惑度等、特定任务指标、人类评估
-
编码器-解码器模型
-
概述:该模型学习一个函数,将xxx映射到一个固定大小的向量c,然后使用语言模型将该向量“解码”为词序列www
-
kalchbrenner和Blunsom 2013:卷积句子模型(CSM)编码器,循环解码器
优点:卷积学习局部上下文中特征之间的相互作用;通过堆叠卷积,可以学习更长范围的依赖关系;深度卷积网络具有类似于树的分支结构,但不需要解析器。
缺点:句子有不同的长度,需要不同深度的树;卷积网络通常不是这样动态的
-
Stuskever等人2014:LSTM编解码
优点:循环神经网络自然地处理各种长度的序列;长短期记忆网络原则上可以传播长距离的梯度;架构非常简单!
缺点:隐藏状态必须记住大量信息!
- 技巧
- 反向读取输入序列
- 使用JJJ个独立训练的模型集合
- 使用波束搜索
- 技巧
-
-
解码方法
- 困难:寻找最可能输出不易
- 近似方法:贪婪搜索、波束搜索
-
图像标题生成
- 图像标题生成:神经网络非常适合处理多模态——一切都是向量!图像标题生成可以使用类似翻译的技术,需预训练
- Kiros等人2013:前馈n元模型可以在条件模型中替代RNN,乘法模型助于交互学习
带注意力机制的条件语言模型
-
向量条件处理的问题
- 信息压缩不足:难以承载整句含义
- 梯度问题:传播距离长
- 记忆问题:长短期记忆网络易遗忘
-
带注意力机制的机器翻译
- 解决向量问题:用矩阵表示源语句,从矩阵生成目标语句,可解决容量和梯度流动问题
- 三种构建矩阵方式:
- 拼接:将单词向量拼接
- 卷积网络:应用卷积网络来转换原始的拼接矩阵,以获得依赖于语境的矩阵
- 双向循环神经网络:双向循环神经网络(门控循环单元或长短期记忆网络)从左到右和从右到左读取 f(|f|=列数),拼接表示
-
从矩阵生成内容与注意力计算
- 生成方法:用循环神经网络逐词生成输出句子,结合嵌入和矩阵视图向量
- 注意力计算:(简略概述 详细需搜索)
- 简化版:循环神经网络隐藏状态等一系列计算
- 非线性注意力 - 能量模型:用多层感知机替换点积
-
机器翻译中注意力
-
在序列到序列翻译中添加注意力效果:添加注意力提升11BLEU
-
模型变体:早期绑定和晚期绑定及优势比较
早期绑定(Early Binding)和晚期绑定(Late Binding)是编程语言中两种不同的方法调用机制。
-
早期绑定(Early Binding)
早期绑定在编译时或程序启动时确定方法或变量的具体实现,通常与静态类型语言(如Java、C#)或编译型语言相关。
优势:
性能更高 类型安全 代码可读性强 更好的IDE支持
-
晚期绑定(Late Binding)
晚期绑定在运行时动态确定方法或变量的具体实现,通常与动态类型语言(如Python、JavaScript)或反射机制相关。
优势:灵活性更高 代码更简洁 支持动态语言特性 更好的扩展性
- 早期绑定更适合需要高性能、类型安全和代码可维护性的场景。
- 晚期绑定更适合需要灵活性和动态扩展的场景。
-
-
-
注意力总结与梯度
- 注意力与池化:密切相关
- 巴赫达瑙模型:关注内容,可添加结构偏向等
- 梯度:并行反向传播
- 与人类翻译:翻译者会反复参考输入
-
带注意力的图像标题生成
-
卷积网络区域:含注释向量
-
注意力计算:软、硬注意力(确定性软注意力和随机性硬注意力)
-
软注意力学习:确定性软注意力是一种连续的、可微分的注意力机制,它通过某种函数(如softmax)对输入的权重进行平滑处理,生成注意力分布。这个分布是确定性的,不涉及随机性。
-
硬注意力学习:随机性硬注意力是一种离散的注意力机制,它通过采样(如从概率分布中采样)来选择特定的输入特征或区域。由于其采样过程是随机的,因此具有不确定性。
(基于詹森不等式等)
-
效果:软注意力+2BLEU,硬注意力+4BLEU
-
-
整体总结:
- 性能改进:优于向量编码等
- 其他优势:模型可解释性、更好的梯度流动、更好的容量等