从0到1理解大语言模型:读《大语言模型:从理论到实践(第2版)》笔记
从0到1理解大语言模型:前3章精华速读
——读《大语言模型:从理论到实践(第2版)》笔记
如果你只有 30 分钟,又想快速搞懂“大语言模型到底怎么炼成的”,这篇文章就是为你准备的。
我提炼了官方 400 页巨著的前 3 章,用中文讲人话,帮你把“概念 → 结构 → 数据”一次性串起来。
第1章 绪论:一句话说清大模型是什么
关键词 | 一句话解释 |
---|---|
语言模型 | 给任何一段文本算概率的机器:越像人话,分越高。 |
大 | 参数量≥100 亿,阅读过 1 T 以上文本。 |
自监督 | 不用人工标注,直接拿下一词预测当“老师”。 |
三个阶段 | ①预训练(学语言)→ ②指令微调(学听话)→ ③强化学习(学讨好)。 |
经验法则:模型越大、数据越多、算力越猛,效果越“玄学式”提升。OpenAI 管这叫 Scaling Laws:损失值随参数/数据/算力指数下降。
第2章 大模型骨架:Transformer 全家桶
2.1 底层积木:Transformer 结构
- Embedding 把词变向量;Positional Encoding 给位置打坐标。
- Self-Attention 让每个词“偷窥”上下文,距离不再是问题。
- FFN 两层全连接做非线性变换;残差 + LayerNorm 保稳定。
- Encoder vs Decoder 只在机器翻译用,GPT 系列只用 Decoder。
2.2 GPT 系列如何炼成
- 预训练:用 45 TB 网页 → 570 GB 干净文本,做“下一词预测”。
- 微调:把下游任务化成“填空题”,用几千~几万条标注即可。
- 提示(Prompting):不给权重,只给示范,模型也能举一反三。
2.3 LLaMA 做了哪些小改进
- 前置 RMSNorm → 训练更稳。
- SwiGLU 激活 → 比 ReLU 更丝滑。
- RoPE 旋转位置编码 → 长度外推更友好。
- 多查询/FlashAttention/MLA → 省显存、提速度。
一句话总结:LLaMA = GPT 结构 + 工程优化 + 开源,让平民也能玩 70 B 模型。
第3章 数据:为什么“Garbage in, garbage out”在大模型里被放大 100 倍
3.1 数据来源全景图
类型 | 占比 | 作用 |
---|---|---|
通用网页 | 60 % 以上 | 学说话、学世界知识 |
书籍/百科 | ~5 % | 长文本连贯性、事实性 |
GitHub/论文/专利 | 5–10 % | 代码、科学推理 |
多语言 | 5–20 % | 跨语言对齐 |
领域语料(金融、医疗…) | 1–5 % | 下游任务“外挂知识” |
经验:高质量小数据 > 低质量大数据。DeepMind 的 Chinchilla 法则:参数和词元 1:20 最划算。
3.2 数据炼金术:把 1 PB 原始网页变 100 GB 真·黄金
- 质量过滤:
- 规则法:长度、符号比、困惑度。
- 模型法:用一个小模型给每段文本打分,砍掉低分。
- 去重:
- 句子级 50 字符以上重复直接剪。
- 文档级 MinHash + URL 去重,防“Ctrl+C/V”污染。
- 隐私脱敏:正则 + NER,把身份证、邮箱、地址全抹掉。
- 词元化:
- BPE/WordPiece/ULM → 解决 OOV,中文 2~3 字节拼一字。
- 字节级 BPE 保证多语言无死角。
3.3 数据影响实验
- 规模:LLaMA 从 1 T 加到 15 T token,常识基准再涨 5–10 分。
- 质量:同一量级,清洗后 vs 原始 CommonCrawl,下游任务提升 20 %。
- 多样性:Gopher 实验发现,C4+MassiveWeb+Books+News 的黄金配比 ≈ 1:5:3:1,单一来源越纯越差。
- 时效性:用 2019 年的新闻训的模型,在 2023 年测试集上掉 3–5 分。
一张图带走前 3 章核心
第1章 第2章 第3章概念 —————> 结构 —————> 数据↑ ↑ ↑
Scaling Laws → Transformer → Chinchilla↓ ↓ ↓越大越好 越稳越快 越干净越好
彩蛋:读完就能回答的 3 个面试高频题
-
为什么 LLaMA 3 用 15 T token 训练,而 GPT-3 只用了 0.3 T?
→ Chinchilla 定律:参数 70 B 时,最优 token 数 ≈ 1.4 T;405 B 时,≈ 15 T。 -
FlashAttention 到底省了什么?
→ 省显存:把 O(N²) 的 Attention 矩阵拆块放 SRAM,算完即丢;速度反而更快(重新计算 < 访存延迟)。 -
数据清洗最大的坑是什么?
→ 测试集泄露。CommonCrawl 里混了 GLUE、MMLU 的题,不剔除直接“刷榜”=作弊。