当前位置: 首页 > news >正文

Google机器学习基础(语言模型)

机器学习基础(37)-语言模型解密:从词元预测到上下文理解

什么是语言模型?

语言模型就像是文字的"概率计算器",它能估算词元序列出现的可能性。词元(Token)作为语言建模的最小单位,可以是:

  • 完整单词(如"cat")
  • 子词部件(如"un-“、“watch”、”-ed"组合成"unwatched")
  • 单个字符(特别是标点符号)

🔍 现代语言模型的词元化艺术

图:单词"antidisestablishmentarianism"被分解为6个子词

典型子词组合

单词分解示例组成部件
unwatchedun + watch + ed前缀+词根+后缀
catscat + s词根+复数后缀
中文单词字或词组合根据语义划分

📌 有趣事实:英语中1个词元≈4个字符≈0.75个单词,因此400词元≈300英文单词

语言模型如何工作?

🎯 预测填空游戏

考虑句子:

“当我听到屋顶的下雨声,我正在厨房___.”

语言模型给出的概率预测可能是:

概率补全内容
9.4%做汤
5.2%烧开水
3.6%蜷缩
2.5%小憩
2.2%放松

💡 应用场景:这个概率表可用于文本生成、翻译或摘要——选择最高概率结果或随机采样

语言模型进化史

1. N元语法模型(石器时代)

核心思想:通过相邻词序列的频率预测下一个词

典型示例

  • 二元语法(Bigram):“you are” → “very”
  • 三元语法(Trigram):“orange is” →
    • “ripe”(水果相关)
    • “cheerful”(颜色相关)

⚠️ 局限性:上下文窗口太小,就像只记得前两个词的健忘症患者

2. 循环神经网络(工业革命)

图:RNN像传送带一样逐步处理信息

突破

  • 可学习长期依赖关系
  • 动态更新隐藏状态记忆上下文

😫 痛点

  • 仍然受制于"梯度消失"问题
  • 实际有效上下文长度有限(约50-100词元)

3. 现代大语言模型(智能时代)

革命性创新

  • Transformer架构
  • 自注意力机制
  • 超长上下文窗口(数万词元)

🌟 典型案例

# BERT处理多义词"orange"的上下文嵌入
"orange juice" → 水果向量
"orange shirt" → 颜色向量

为什么上下文如此重要?

人类理解语言的黄金法则:

没有上下文,"bank"可能是河岸或金融机构;"苹果"可能是水果或手机品牌

语言模型进阶之路:

N元语法:2-3个词的短时记忆

RNN:段落级的记忆能力

Transformer:整本书的全局理解

技术对比表

模型类型上下文长度典型应用场景主要缺陷出现年代
N元语法2-5个词• 早期拼写检查
• 简单文本预测
• 无法处理长距离依赖
• 需要大量统计存储
1950s
RNN~100词元• 早期机器翻译
• 语音识别
• 梯度消失问题
• 训练速度慢
1980s
Transformer数万词元• ChatGPT等LLM
• 文档摘要
• 计算资源需求大
• 训练成本高
2017

语言模型的超能力

🎭 多轮对话理解

🌍 跨语言翻译

📝 学术论文摘要

🎨 创意写作生成

未来展望:随着上下文窗口的扩展,语言模型正在向"世界模型"进化

http://www.xdnf.cn/news/1227097.html

相关文章:

  • Rust在CentOS 6上的移植
  • 梯度下降的基本原理
  • 【Shell脚本自动化编写——报警邮件,检查磁盘,web服务检测】
  • 如何理解推理模型
  • Windows和Linux的tree工具
  • 系统开机时自动执行指令
  • 力扣热题100---------206.反转链表
  • 查看主板信息的3种方法
  • 大模型推理引擎总结
  • 神经网络学习笔记
  • 每日面试题18:基本数据类型和引用数据类型的区别
  • 8.1IO进程线程——文件IO函数
  • Springboot 配置 doris 连接
  • LRU缓存淘汰算法的详细介绍与具体实现
  • VSCode Python 与 C++ 联合调试配置指南
  • 电商项目_性能优化_数据同步
  • Python day31
  • Implement recovery based on PITR using dump file and binlog
  • U-Net vs. 传统CNN:为什么医学图像分割需要跳过连接?
  • 使用gcc代替v语言的tcc编译器提高编译后二进制文件执行速度
  • 9.1无法恢复的错误与 panic!
  • 第二十三天(数据结构:链表补充【希尔表】)
  • golang的函数
  • 完整复现cacti的RCE
  • 机试01-C++基础语法与库函数
  • 大模型结构比较
  • python学智能算法(三十))|SVM-KKT条件的数学理解
  • 第七章 愿景12 小萍分享《人性的弱点》
  • WaitForSingleObject 函数参数影响及信号处理分析
  • C语言:20250801学习(构造类型)