当前位置: 首页 > ai >正文

阿里:基于设计逻辑的LLM数据合成

在这里插入图片描述

📖标题:DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
🌐来源:arXiv, 2508.12726

🌟摘要

大型语言模型 (LLM) 在许多自然语言任务中取得了显着的成功,但仍然难以处理复杂的多步推理,尤其是在不同的学科中。现有的推理数据集通常要么缺乏学科广度,要么缺乏引发稳健推理行为所需的结构深度。我们提出了 DesignER:一种设计逻辑指导推理数据合成管道,它利用自然可用、广泛的原始文档(书籍语料库和网络语料库)来生成多学科具有挑战性的问题。我们的方法的核心创新是引入了设计逻辑概念,它模仿了人类教育工作者的问题创建过程。我们使用 LLM 从各个学科的现有问题中逆向工程和抽象超过 120,000 个设计逻辑。通过将这些设计逻辑与学科源材料进行匹配,我们能够创建远远超出现有数据集难度和多样性的推理问题。基于这个管道,我们合成了两个跨越 75 个学科的大规模推理数据集:Design-Logic-ReasoningBook (DLR-Book),包含从书籍语料库合成的 3400 万个具有挑战性的问题,Design-Logic-Reasoning-Web (DLR-Web),来自 Web 语料库有 1.66 亿个具有挑战性的问题。我们的数据分析表明,我们的方法合成的问题比基线数据集中的问题具有更大的难度和多样性。通过对 Qwen3-8B-Base 和 Qwen3-4B-Base 模型进行 SFT 实验来验证这些数据集的有效性。结果表明,我们的数据集显着优于现有相同体积的多学科数据集。使用完整数据集进行训练进一步使模型能够超越官方 Qwen3-8B 和 Qwen3-4B 模型的多学科推理性能。项目在https://attention-is-all-i-need.github.io/Design-Logic-Reasoning

🛎️文章简介

🔸研究问题:如何生成高质量、多学科的推理问题以提升大语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了一种基于“设计逻辑”的数据合成流程,显著提高了多学科推理问题的难度和多样性。

📝重点思路

🔸提出了“DESIGNER”数据合成pipeline,通过分析现有高质量问题库,抽取“设计逻辑”用于生成新问题。
🔸利用强大的LLM来反向工程和归纳抽象出超过120000种结构化的“设计逻辑”。
🔸在问题合成阶段,采用双阶段的“检索-生成”机制,先粗略检索与源文档最相关的设计逻辑,然后再进行细致匹配以生成高质量问题。
🔸创建了两个大型推理数据集,分别为Design-Logic-Reasoning-Book(DLR-Book)和Design-Logic-Reasoning-Web(DLR-Web),覆盖75个学科,问题数量达到4700000。

🔎分析总结

🔸通过实验分析,合成的问题展示出比基线数据集显著更高的难度和多样性,尤其在语义多样性指标上表现优于现有数据集。
🔸模型在使用本研究合成的数据集进行训练后,推理能力显著提升,相比使用相同数据量的现有多学科数据集表现更优。
🔸在多项推理基准测试中,使用DLR-Book和DLR-Web数据集训练的模型超越了官方Qwen3模型的同尺寸表现,验证了合成方法的有效性。

💡个人观点

论文的核心是归纳出“设计逻辑”,在生成指令时先源文档最相关的设计逻辑,从而生成复杂且有深度的推理问题。

🧩附录

在这里插入图片描述

http://www.xdnf.cn/news/18650.html

相关文章:

  • crc16是什么算法
  • C++ 指针与引用面试深度解析
  • STM32项目分享:基于STM32的智能洗衣机
  • 开源大模型天花板?DeepSeek-V3 6710亿参数MoE架构深度拆解
  • 微软恶意软件删除工具:官方免费的系统安全防护利器
  • 网络编程1-基本概念、函数接口
  • 2.1.5 数学与其他
  • VUE 的弹出框实现图片预览和视频预览
  • C++数据结构之二叉搜索树
  • AEB 强制来临,东软睿驰Next-Cube-Lite有望成为汽车安全普惠“破局器”
  • macbook国内源安装rust
  • 【AGI使用教程】GPT-OSS 本地部署(2)
  • 【AMBA总线互联IP】
  • 自然语言处理——07 BERT、ELMO、GTP系列模型
  • python文件import找不到其它目录的库解决方案
  • Python爬虫第四课:selenium自动化
  • 【云馨AI-大模型】AI热潮持续升温:2025年8月第三周全球动态
  • MySQL数据库精研之旅第十一期:打造高效联合查询的实战宝典(二)
  • 禁用 Nagle 算法(TCP_NODELAY)
  • RuoYi-Vue3项目中Swagger接口测试404,端口问题解析排查
  • 信誉代币的发行和管理机制是怎样的?
  • linux下camera 详细驱动流程 OV02K10为例(chatgpt版本)
  • stm32温控大棚测控系统(CO2+温湿度+光照)+仿真
  • Linux->多线程2
  • 56 C++ 现代C++编程艺术5-万能引用
  • Wagtail CRX 简介
  • 详解无监督学习的核心原理
  • vscode配置remote-ssh进行容器内开发
  • Linux服务测试题(DNS,NFS,DHCP,HTTP)
  • 微服务-21.网关路由-路由属性