从 Transformer 到文本生成 (From Transformer to Text Generation)
Encoder-Decoder 结构的完整流程(以机器翻译为例,虽然目标是文本生成,但这个例子有助于理解如何连接)。
文本生成任务: 定义任务,如语言模型 (Language Modeling)。
基于 Decoder-only 的 Transformer (如 GPT 系列): 介绍这类更适合文本生成的架构(Encoder-Decoder Transformer 的解码器部分加上输入部分的堆叠)。解释其自回归 (Autoregressive) 特性。
输入/输出处理:
文本分词 (Tokenization):介绍 WordPiece, BPE 等常见分词方法(可以使用 Hugging Face tokenizers 库)。
构建词汇表 (Vocabulary)。
输入表示:Token ID序列,位置编码。
输出:Logits -> Probabilities。