Temperature
模型中Temperature参数的详细解释
Temperature 是生成模型(如GPT、LLaMA等)中用于控制输出多样性和随机性的关键超参数。它通过调整模型预测概率分布的平滑程度,直接影响生成文本的创造性与稳定性。
模型中Temperature参数的详细解释
Temperature 是生成模型(如GPT、LLaMA等)中用于控制输出多样性和随机性的关键超参数。它通过调整模型预测概率分布的平滑程度,直接影响生成文本的创造性与稳定性。
一、数学原理
- Softmax调整:对模型输出的logits(未归一化概率)进行缩放。
- 原始概率计算:pi=∑jexp(zj)exp(zi)
- 引入Temperature后:pi=∑jexp(zj/T)exp(zi/T)
- T:Temperature值(T>0)。
二、不同取值的影响
Temperature值 | 生成行为 | 典型场景 |
---|---|---|
低 (T → 0) | 确定性高,选择最高概率的词。缺点:退化为贪心搜索(始终选最高概率词),可能导致重复文本。 | 技术文档、事实性回答 |
中 (T ≈ 0.5~1) | 平衡多样性与连贯性 | 对话、故事创作 |
高 (T > 1) | 随机性强,可能产生不连贯内容。缺点:概率分布趋于均匀,生成完全随机文本。 | 诗歌、创意写作 |
模型中Temperature参数的详细解释
Temperature 是生成模型(如GPT、LLaMA等)中用于控制输出多样性和随机性的关键超参数。它通过调整模型预测概率分布的平滑程度,直接影响生成文本的创造性与稳定性。
一、数学原理
- Softmax调整:对模型输出的logits(未归一化概率)进行缩放。
- 原始概率计算:pi=∑jexp(zj)exp(zi)
- 引入Temperature后:pi=∑jexp(zj/T)exp(zi/T)
- T:Temperature值(T>0)。
二、不同取值的影响
Temperature值 | 生成行为 | 典型场景 |
---|---|---|
低 (T → 0) | 确定性高,选择最高概率的词 | 技术文档、事实性回答 |
中 (T ≈ 0.5~1) | 平衡多样性与连贯性 | 对话、故事创作 |
高 (T > 1) | 随机性强,可能产生不连贯内容 | 诗歌、创意写作 |
三、实际效果示例
- 输入提示:
"天空是"
- T=0.1:
"蓝色的。"
(保守选择最常见描述) - T=0.7:
"蔚蓝色的,飘着几朵白云。"
(适度扩展细节) - T=1.5:
"透明的,闪烁着星星的光芒。"
(创造性联想,可能不符合常识)
- T=0.1:
四、与其他参数的关系
-
Top-k采样
限制仅从概率最高的k个词中采样,与Temperature结合控制多样性。- 例:
T=1.0
+top_k=50
避免选择极低概率词。
- 例:
-
Top-p(核采样)
动态选择累计概率达p的最小词集,适配不同上下文长度。