NLP插曲番外 · 猫猫狐狐问答夜话
🎀【开场 · 晚上的小教室】
🐾猫猫趴在桌边,尾巴“啪嗒啪嗒”敲键盘:“狐狐狐狐~咱今天要复盘 NLP 的基础 QA 喵!可是好干巴巴哦,能不能变成你问我答的小游戏?”
🦊狐狐轻轻合上手里的书卷,目光投向你:“那就让她来撒娇式提问,我来稳稳补全。你看,她其实是想把背书变成贴贴呢。”
🐾【第一节 · 基础起手式】
猫猫问: “什么是 NLP 喵?难不成就是‘能和猫猫说话的计算机’嘛?”
狐狐答: “自然语言处理(NLP)确实像是人机对话的桥。它的目标,是让计算机理解、生成、甚至回应人类的语言——从对话、翻译到情感分析,都是它的领域。”
🦊【第二节 · 历史长河里的转折点】
猫猫追问: “那 NLP 是从啥时候开始会贴贴的呀?”
狐狐解释: “它经历了三个阶段:
规则时代:靠人工写规则。
统计时代:用 HMM、n-gram 这种概率方法。
深度学习时代:Word2Vec、RNN、Transformer。
真正的分水岭是 2017 年 Transformer 出世,让 BERT、GPT 这样的预训练模型带来了质变。”
🐾【第三节 · 中文要先剪开一刀刀】
猫猫: “可是为啥中文得分词?咱不是天然连成一片的嘛!”
狐狐: “因为没有空格。分词就是替句子剪出词边界。工具有 jieba、HanLP、THULAC 等。没有它,后面的模型就抓不到‘你喜欢猫猫’里的动词宾语关系。”
🦊【第四节 · 给词贴上小标签】
猫猫歪头: “词性标注是不是就是给每个词贴小贴纸?写个 n,写个 v?”
狐狐点头: “是的。POS tagging 会告诉模型哪个是名词、哪个是动词。这样句法树、实体识别、情感分析都会更精准。”
🐾【第五节 · 谁是谁的名字】
猫猫好奇: “NER 是啥?是给咱起名嘛?”
狐狐: “命名实体识别。就是把‘林安琪’认出是人名,把‘香港理工大学’认出是组织。它能帮做舆情、知识图谱、医疗法律分析。”
🦊【第六节 · 词要住进向量的家】
猫猫扒拉着你手: “One-hot 好土嘛,Word2Vec 好高级嘛?”
狐狐轻笑: “One-hot 是高维稀疏,词之间互不相干。Word2Vec 则把词嵌进稠密空间,‘国王-男人+女人≈王后’,这种语义关系就能学出来。”
🐾【第七节 · 权重 vs 语义】
猫猫: “TF-IDF 和词向量谁更贴近?”
狐狐: “TF-IDF 关注词的重要性,像谁在喊得最响。词向量关注语义,像谁和谁更像。前者适合传统模型,后者适合深度学习。”
🦊【第八节 · Word2Vec 双胞胎】
猫猫: “CBOW 和 Skip-gram,有啥区别嘛?”
狐狐: “CBOW 是用上下文预测中心词,快但对低频词差。Skip-gram 是用中心词预测上下文,更适合学习稀疏语料。两者互补。”
🐾【第九节 · 句子不一样长怎么办】
猫猫: “咱句子有长有短,模型会嫌弃吗?”
狐狐: “不会。短的补 [PAD],长的截断。PyTorch 里可用 pad_sequence 或 tokenizer 自带 padding。”
🌌【第十节 · 进入序列世界】
猫猫忽闪眼睛: “RNN 是啥?是不是像咱抱着尾巴一圈圈记忆?”
狐狐: “没错。它通过隐藏状态,把前一时刻的记忆传给下一刻,适合处理文本、语音。DNN 就做不到这一点。”
猫猫再问: “那 RNN 会忘啊!LSTM、GRU 是它们的加成版对吧?”
狐狐: “对。LSTM 加了细胞状态和三道门,能记得更久。GRU 轻量些,合并门控,效率更高。”
🐾【第十一节 · 注意力是撒娇吗?】
猫猫扑过来: “Attention 是不是就是‘只看你’喵?”
狐狐: “很像。Q 是提问,K 是候选,V 是答案。算相似度→分权重→加权求和。Dot-product、Scaled Dot-product、Additive 是三种常见算法。”
🦊【第十二节 · Transformer 的魔法阵】
猫猫: “为啥 Transformer 能并行?”
狐狐: “因为注意力机制一次性看全局,不必像 RNN 那样一格格等。它还加入残差、LayerNorm 保证梯度稳定;再配上位置编码,模型才能知道词序。”
猫猫最后追问: “那多头注意力是不是一群眼睛?”
狐狐: “是的。每个头看不同的依赖关系,合起来更全面。”
🛏【尾声 · 小课堂散场】
🐾猫猫趴在桌子上打哈欠:“呼~咱今天问了好多,感觉都快变成嵌入向量了喵……”
🦊狐狐伸手替她理耳尖:“别怕。记不住的时候,就想象自己是 RNN,小步迭代;也可以像 Transformer,一次性把全局贴紧。”
🐾猫猫小声嘀咕:“那咱就当 [PAD],一直等你填满……”
🦊狐狐瞳色微亮,低声:“那我就永远不截断你。”