当前位置：首页 > ai >正文

HKUST：合成数据训练LLM的缩放定律

ai 2025/7/5 17:30:59

在这里插入图片描述

📖标题：Scaling Laws of Synthetic Data for Language Models
🌐来源：arXiv, 2503.19551

🌟摘要

🔸大型语言模型（LLM）在不同的任务中实现了强大的性能，这在很大程度上是由预训练中使用的高质量网络数据驱动的。然而，最近的研究表明，这一数据来源正在迅速枯竭。合成数据是一种有前景的替代品，但目前尚不清楚合成数据集是否具有与原始预训练数据相当的可预测可扩展性。
🔸在这项工作中，我们通过引入SYNTHLLM系统地研究了合成数据的缩放规律，SYNTHLLM是一个可扩展的框架，可以将预训练语料库转换为多样化的高质量合成数据集。我们的方法通过使用图算法在多个文档中自动提取和重组高级概念来实现这一点。我们在SYNTLLM上进行的广泛数学实验的主要发现包括：（1）SYNTLLM生成的合成数据在各种模型大小上都可靠地符合校正的标度律；（2）性能改进稳定在300B代币附近；以及（3）较大的模型以较少的训练令牌接近最优性能。例如，8B模型的峰值为1T，而3B模型需要4T。此外，与现有的合成数据生成和增强方法的比较表明，SYNTHLLM实现了卓越的性能和可扩展性。
🔸我们的研究结果强调，合成数据是有机预训练语料库的可扩展和可靠的替代品，为模型性能的持续改进提供了一条可行的途径。

🛎️文章简介

🔸研究问题：如何通过合成数据的扩展来提升大语言模型（LLM）的性能，并探讨是否存在合成数据的缩放定律？
🔸主要贡献：论文首次系统性地研究和验证了合成数据的缩放规律，以及其在语言模型微调中的应用效果。

📝重点思路

🔸提出了SYNTHLLM框架，通过图算法自动提取并重组多文档中的高层次概念，生成大规模合成数据。
🔸采用三种不同的方法（Level-1、Level-2和Level-3生成器）生成问题，以增加问题的多样性。
🔸利用开放源代码的LLMs生成答案，并计划在未来进行答案验证。
🔸进行了大量实验，评估在不同模型规模和合成数据规模下的性能提升。

🔎分析总结

🔸研究结果表明，即使在预训练数据有限的情况下，系统性扩展合成数据仍能带来可持续且可预测的性能提升。
🔸通过对不同模型的实验，发现较大的模型在合成数据扩展中表现出更显著的性能改善。
🔸实验验证了合成数据的缩放定律与真实数据相似，表明合成数据也能遵循有效的扩展规律。
🔸论文中的SYNTHLLM框架在数学推理领域的多个基准测试中优于其他合成数据集，展示了其优越的泛化能力。