Word2Vec 原理是什么
一、核心概念:从词语到向量的语义映射
Word2Vec 是2013年由 Google 提出的词嵌入(Word Embedding)模型,其核心目标是将自然语言中的词语转换为稠密的连续向量(词向量),使向量空间中的距离能反映词语的语义相关性。
- 本质:通过神经网络学习词语的分布式表示(Distributed Representation),打破传统one-hot编码“维度高、无语义关联”的局限。
- 关键假设:“上下文相似的词,语义也相似”(分布式假设)。


二、两大模型架构