Skip-Gram CBOW
Word2Vec 参数sg
的含义与推荐场景总结
参数 | 含义 | 推荐使用场景 |
---|---|---|
sg=1 | 使用 Skip-Gram 模型 | - 小语料场景(模型对数据量敏感度较低) - 低频词 / 稀有词需要重点建模 - 追求高质量词向量(尤其对语义细节要求高) - 需捕捉复杂语义关系(如一词多义) |
sg=0 | 使用 CBOW(连续词袋)模型 | - 大语料场景(数据充足时训练效率更高) - 高频词为主的语料(如新闻、通用文本) - 追求快速训练速度(计算复杂度低于 Skip-Gram) - 对低频词精度要求不高 |
关键补充说明
-
Skip-Gram(
sg=1
)的核心优势:- 以目标词为中心:通过预测上下文学习词向量,对低频词更友好(每个词作为目标词时都会被独立训练)。
- 语义表达能力:在小语料中表现更稳定,适合处理词汇多样性高或语义复杂的场景(如专业领域文本、含生僻词的语料)。
-
CBOW(
sg=0
)的核心优势:- 以上下文预测目标词:利用上下文信息预测当前词,训练时通过 “多对一” 的方式加速计算(尤其适合大语料)。
- 高频词优化:对高频词的向量表示更高效,但可能对低频词的建模能力较弱(因低频词的上下文信息较少)。
-
其他影响因素:
- 除
sg
外,window
(窗口大小)、min_count
(最小词频)等参数也会影响模型效果,需结合场景调整。 - Skip-Gram 在训练时计算量更大(需预测多个上下文词),而 CBOW 的正向传播和反向传播计算更简洁,适合大规模数据快速训练。
- 除