BYOFF(自定义格式函数,Bring Your Own Formatting Function)
若你有需求,可选择不使用预定义的格式函数,而是自行提供自定义函数。该格式函数将由 SFTTrainer 类自动应用于数据集中的每一个元素(下一部分内容会详细介绍这一过程)。
下面我们创建一个基础的格式函数,该函数仅应用聊天模板,不执行其他任何操作:
def byo_formatting_func1(examples):
messages = examples["messages"]
output_texts = tokenizer_phi.