LLM中 词嵌入向量中的正负值表示什么含义
词嵌入向量中的正负值表示什么含义
在词嵌入(Word Embedding)中,向量的正负值本身没有绝对、固定的语义(比如“正面”“负面”“正确”“错误”),但它们的相对关系(同一维度上的正负方向)往往对应词语在某个“潜在特征维度”上的对立或关联。这些潜在特征是模型通过大规模文本训练自动学习到的抽象概念(比如性别、温度、情感倾向、抽象属性等),单个维度的含义需要结合具体词语的向量关系来推断。
核心逻辑:正负值的“相对性”
词嵌入的本质是将词语映射到高维空间,使得语义相关的词在空间中距离更近。向量中某一维度的“正”或“负”,本质是该词语在这个维度代表的“潜在特征”上的“偏向”——正方向可能对应特征的“A状态”,负方向对应“与A对立的B状态”,而不是绝对的“好”或“坏”。
例如:假设模型学到一个“性别相关”的潜在维度,那么:
- “国王”“男人”“他”可能在这个维度上为正值(偏向“男性特征”);
- “女王”“女人”“她”可能在这个维度上为负值(偏向“女性特征”);
- 而“桌子”“天空”等中性词,在这个维度上的数值可能接近0(不偏向任何一方)。
具体例子:通过词语关系理解正负含义
以下结合常见的词嵌入(如Word2Vec、GloVe)训练结果