阿里:基于设计逻辑的LLM数据合成
📖标题:DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
🌐来源:arXiv, 2508.12726
🌟摘要
大型语言模型 (LLM) 在许多自然语言任务中取得了显着的成功,但仍然难以处理复杂的多步推理,尤其是在不同的学科中。现有的推理数据集通常要么缺乏学科广度,要么缺乏引发稳健推理行为所需的结构深度。我们提出了 DesignER:一种设计逻辑指导推理数据合成管道,它利用自然可用、广泛的原始文档(书籍语料库和网络语料库)来生成多学科具有挑战性的问题。我们的方法的核心创新是引入了设计逻辑概念,它模仿了人类教育工作者的问题创建过程。我们使用 LLM 从各个学科的现有问题中逆向工程和抽象超过 120,000 个设计逻辑。通过将这些设计逻辑与学科源材料进行匹配,我们能够创建远远超出现有数据集难度和多样性的推理问题。基于这个管道,我们合成了两个跨越 75 个学科的大规模推理数据集:Design-Logic-ReasoningBook (DLR-Book),包含从书籍语料库合成的 3400 万个具有挑战性的问题,Design-Logic-Reasoning-Web (DLR-Web),来自 Web 语料库有 1.66 亿个具有挑战性的问题。我们的数据分析表明,我们的方法合成的问题比基线数据集中的问题具有更大的难度和多样性。通过对 Qwen3-8B-Base 和 Qwen3-4B-Base 模型进行 SFT 实验来验证这些数据集的有效性。结果表明,我们的数据集显着优于现有相同体积的多学科数据集。使用完整数据集进行训练进一步使模型能够超越官方 Qwen3-8B 和 Qwen3-4B 模型的多学科推理性能。项目在https://attention-is-all-i-need.github.io/Design-Logic-Reasoning
🛎️文章简介
🔸研究问题:如何生成高质量、多学科的推理问题以提升大语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了一种基于“设计逻辑”的数据合成流程,显著提高了多学科推理问题的难度和多样性。
📝重点思路
🔸提出了“DESIGNER”数据合成pipeline,通过分析现有高质量问题库,抽取“设计逻辑”用于生成新问题。
🔸利用强大的LLM来反向工程和归纳抽象出超过120000种结构化的“设计逻辑”。
🔸在问题合成阶段,采用双阶段的“检索-生成”机制,先粗略检索与源文档最相关的设计逻辑,然后再进行细致匹配以生成高质量问题。
🔸创建了两个大型推理数据集,分别为Design-Logic-Reasoning-Book(DLR-Book)和Design-Logic-Reasoning-Web(DLR-Web),覆盖75个学科,问题数量达到4700000。
🔎分析总结
🔸通过实验分析,合成的问题展示出比基线数据集显著更高的难度和多样性,尤其在语义多样性指标上表现优于现有数据集。
🔸模型在使用本研究合成的数据集进行训练后,推理能力显著提升,相比使用相同数据量的现有多学科数据集表现更优。
🔸在多项推理基准测试中,使用DLR-Book和DLR-Web数据集训练的模型超越了官方Qwen3模型的同尺寸表现,验证了合成方法的有效性。
💡个人观点
论文的核心是归纳出“设计逻辑”,在生成指令时先源文档最相关的设计逻辑,从而生成复杂且有深度的推理问题。