当前位置: 首页 > ops >正文

Language Model

语言模型(Language Model, LM)是用于估计token序列概率的工具,通常在模型输出文本时非常有用。

Token sequence:Y=y_{1},y_2,...,y_n

P(y_1,y_2,...,y_n)

Y∗=argmaxP(X∣Y)P(Y)

1.Continuous LM

(1)N-gram模型

估计方法: P(y1,y2,…,yn)=P(y1∣BOS)P(y2∣y1)…P(yn∣yn−1)

例子: 估计 P(beach∣nice)=C(nice beach)/C(nice),即“nice beach”出现的次数除以“nice”出现的次数。

平滑技术: 处理训练数据中未出现的n-gram

Issue:概率估计不准确,尤其是当考虑大的n值时,数据稀疏性问题:许多n-gram在训练数据中从未出现

语言模型平滑: 为某些未出现的词组提供小概率

(2)Recommendation system

例如:History “dog”和“cat”有相似度hdog和hcat,那么如果vjumped·hcat很大,那么相应的vjumped·hdog,也会很大,即使我们没见过“dog jumped...”

2.RNN-based LM

1-of-N编码:使用1-of-N编码表示历史词汇

(1)NN-based LM

基于神经网络的LM,原理是学习预测下一个单词

(2)RNN-based LM

使用RNN,考虑历史信息,但是也会存在RNN的长时依赖问题。

如果使用1 of N编码来代表历史信息,历史信息不能太长,使用LSTM(长短期记忆网络)进行优化

能够有效避免长序列训练中的梯度消失问题。

http://www.xdnf.cn/news/8921.html

相关文章:

  • Vue-01(Vue CLI创建项目以及文件配置说明)
  • 爬虫学习-Scrape Center spa2 超简单 JS 逆向
  • 【WEB3】区块链、隐私计算、AI和Web3.0——可信数字身份体系构建(3)
  • Science Robotics 具身智能驱动的空中物理交互新范式:结合形态和传感,与非结构化环境进行稳健交互
  • 2025.05.22-得物春招机考真题解析-第二题
  • 【算法深练】双序列双指针:用“双轨并行”思维,高效破解算法难题
  • RabbitMQ 集群与高可用方案设计(三)
  • 基于多模态提示融合的交互式图像标注系统设计与实现
  • Java 访问者模式深度重构:从静态类型到动态行为的响应式设计实践
  • FastDFS集群部署与性能优化实战
  • 【后端高阶面经:MongoDB篇】41、MongoDB 是怎么做到高可用的?
  • 【自然语言处理与大模型】大模型Agent四大的组件
  • AI时代新词-大模型(Large Language Model)
  • 网络编程——UDP网络编程
  • flash_attn 安装慢的解决方法
  • 《软件工程》第 14 章 - 持续集成
  • 软考 系统架构设计师系列知识点之杂项集萃(75)
  • 【自然语言处理与大模型】大模型(LLM)基础知识⑤
  • 绘制线、多边形方法,添加绘制点数字信息和线/面等宽度延伸
  • Nginx 限流机制:请求速率与连接数限制深度解析(一)
  • 《三维点如何映射到图像像素?——相机投影模型详解》
  • 保姆式 网站建设wordpress全教程----包含疑难杂症
  • 可视化图解算法45:比较版本号
  • GraphPad Prism数据的基本操作
  • Kafka 客户端连接机制的一个典型陷阱
  • Tomcat 使用与配置全解
  • Python入门手册:循环
  • RabbitMQ 核心原理与Spring Boot整合实战
  • 青少年编程与数学 02-020 C#程序设计基础 05课题、数据类型
  • hadoop异构存储