解密LLM重复输出:Max Token设置与模型机制
new max token设置相关问题的解释:
输入句子再次输出的原因
- 模型学习捷径:LLM对上下文非常有信心,当输入句子中的token共享同一个句子级的上下文时,模型可能会学到一条捷径,直接复制该token,导致输入句子被再次输出。
- Induction Head机制:模型中的Induction Head机制会回顾当前token前面的内容,找到前面出现当前token的地方,并按照前面出现过的模式来补全当前token后面的内容。所以如果输入句子中的某些token在前面出现过,模型就可能倾向于按照之前的模式再次生成这些token,进而导致输入句子被重复输出。
- 自我强化效应:重复的概率几乎随着历史重复次数的增加而单调增加,最终,重复概率稳定在某个上限值附近。一旦生成的句子重复几次,模型将会受困于因自我强化效应引起的句子循环,使得输入句子更容易被再次输出。
new max token设置的作用
- 控制输出长度:max token设置决定了模型生成内容的最大token数量。它限制了模型在一次响应中能够生成的token数量,