当前位置：首页 > news >正文

51c大模型~合集126

news 2025/7/3 0:36:19

我自己的原文哦~ https://blog.51cto.com/whaosoft/13892529

#物理图灵测试

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。

其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。

很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。在文本中，我们梳理了 Jim Fan 的主要演讲内容，另外还在文末发起了一个投票，看你觉得物理图灵测试会在什么时候被攻克？

，时长17:33

以下为经过梳理的演讲内容。

几天前，一篇博客文章引起了我的注意。它说：「我们通过了图灵测试，却没人注意到。」图灵测试曾经是神圣的，堪称计算机科学的圣杯，结果我们就这么通过了。

Jim Fan 提到的博客：https://signull.substack.com/p/we-passed-the-turing-test-and-nobody

当 o3 mini 多花几秒钟思考，或者 Claude 无法调试你那些讨厌的代码时，你会感到不满，对吧？然后我们把每一个大语言模型的突破都当作只是又一个普通的星期二。在座的各位是最难打动的人。

所以我想提出一个非常简单的东西，叫做「物理图灵测试（Physical Turing Test）」。

物理图灵测试

想象一下，你在周日晚上举办了一个黑客马拉松派对，最后你的房子变成了这样：

你的伴侣对你大喊大叫，你想：「哎呀，周一早上，我想告诉某人清理这个烂摊子，然后为我准备一顿很好的烛光晚餐，这样我的伴侣就能开心了。」

然后你回到家，看到这一切（实现了），但你无法分辨是人还是机器帮你弄的。物理图灵测试就是这么简单。

那我们现在进展到什么程度了？接近了吗？看看这个准备开始工作的机器人：

再看看机器狗遇到香蕉皮：

机器人为你准备燕麦早餐：

这就是我们的现状。

那么，为什么解决物理图灵测试如此困难呢？

你们知道大语言模型研究人员经常抱怨，对吧？最近有个叫 Ilya 的人抱怨说：大语言模型预训练的数据快用完了。他甚至称互联网为「AI 的化石燃料」。他说我们快没有数据来训练大语言模型了。但是，如果你了解机器人模型，你就会知道大语言模型研究人员被宠坏了。我们甚至连化石燃料都没有。

下图是英伟达总部的一个数据收集环节。英伟达有一个咖啡厅，我们设置了这些人形机器人，我们操作它们并收集数据。

收集到的数据如下图所示。这是机器人关节控制信号，是随时间变化的连续值。你在维基百科、YouTube、Reddit 或任何地方都找不到这种数据，所以你必须自己收集。

那我们是怎么收集的呢？

我们有一种非常复杂但也非常昂贵的方法，叫做遥操作（teleoperation）。你可以让人佩戴某种 VR 头显，它能识别你的手势并将其传输给机器人。这样你就可以教机器人技能，比如从烤面包机中取出面包，然后倒上蜂蜜。但可以想象，这是一个非常缓慢且痛苦的过程。

如果你把这个方法放到 scaling 图上，你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料，这比用化石燃料更糟糕。而且，一个机器人每天只有 24 小时的时间可以用。实际可利用的时间更少，因为人会疲劳，机器人比人类更容易疲劳。

那我们该怎么办呢？机器人的核能在哪里？我们必须有清洁能源。不能永远依靠化石燃料。

模拟很重要

接下来进入「模拟」。我们必须离开物理世界，进入模拟的世界。

我们训练了一个机器手，能在模拟中完成超人般的灵巧任务，如转笔。对我来说这是超人的，因为我不能转笔，我很高兴我的机器人至少在模拟中能做得比我好。

那么如何训练机器手来完成这样复杂的任务呢？我们有两个想法。一是你必须以比实时快 10000 倍的速度进行模拟。这意味着你应该在单个 GPU 上并行运行 10000 个环境进行物理模拟。

第二点，10000 个环境副本不能都相同。你必须改变一些参数，如重力、摩擦力和重量。我们称之为域随机化。

这给了我们模拟原则。

为什么这种做法能 work？想象一下，如果一个神经网络能够控制机器人掌握一百万个不同的世界，那么它很可能也能掌握第一百万零一个世界 —— 即我们的物理现实。换句话说，我们的物理世界处于这种训练的分布之中。

接下来，我们如何应用这些模拟结果呢？你可以建立一个数字孪生（digital twin），即机器人和世界的一对一副本，然后你在模拟中训练，直接在真实世界中测试，零样本迁移。

机器手也是如此：

我们能做的最令人印象深刻的任务是让狗站在瑜伽球上走，我们把它从虚拟迁移到现实世界。

我们的研究人员看起来超级奇怪，就像《黑镜》的一集。

接下来，我们还可以将其应用于更复杂的机器人，如人形机器人。在短短两小时的模拟时间内，这些人形机器人就经历了 10 年的训练，学习行走，然后你可以把它们迁移到现实世界。无论实体是什么，只要你有机器人模型，你就可以模拟它，并且可以实现行走。

我们能做的不仅仅是行走。当你控制自己的身体时，你可以跟踪任何你想要的姿势，跟踪任何关键点，遵循任何你想要的速度向量，这被称为人形机器人的全身控制问题，是个非常困难的问题。

但我们可以训练它，在 10000 个并行运行的模拟上，我们可以将其零样本迁移到真实机器人上，无需任何微调。

这是在英伟达实验室进行的一个演示。你可以看到它所做的动作的复杂性。它模仿人类所有这些敏捷的动作，同时保持平衡。

做这个需要多大的神经网络？它只需要 150 万参数，不是 15 亿。150 万参数足以捕捉人体的潜意识处理。

所以，如果我们将其放在这个图表上，纵轴是速度，横轴是模拟的多样性，我们称之为模拟 1.0，数字孪生范式，它是一个经典的向量化物理引擎，你可以运行到每秒 10000 帧甚至一百万帧。但问题是你必须建立一个数字孪生。你需要有人建造机器人，建造环境和一切。这非常繁琐，且需要手动完成。

用生成式 AI 生成模拟数据

那么，我们能否用生成的方式获得模拟环境的一部分？下图这些 3D 资产都是由 3D 生成模型生成的：

这些纹理来自 Stable Diffusion 或任何你喜欢的扩散模型：

这些布局也是可以用工具生成的：

将所有这些放在一起，我们构建了一个名为 RoboCasa 的框架，它是日常任务的一个组合模拟。这里的一切，除了机器人，都是生成的。你可以组合不同的场景，但它仍然依赖于这个经典引擎来运行，但你已经可以从中获得很多任务。

接下来，同样让人类来操作。但这一次，人类是在模拟中进行操作。

基于这一个放杯子的演示，我们可以得到人类操作的轨迹，然后便可以在模拟中重放这一轨迹。

而在模拟中，我们可以通过各种技术修改场景，甚至还可以修改运动，比如可以通过 GR00T Mimic 等技术模拟出相似的动作。

也就是说，只需一个人类演示，就能通过环境生成得到 N 个演示，如果在执行动作生成，则能得到 N×M 个不同的模拟样本。如此一样，便实现了数据的倍增。

如下所示，第一和三列是真实的机器人，第二和四列是生成的模拟。看得出来，生成的视频的纹理真实感依然很差，但它们已经足够接近了。

那么，我们如何称呼这些足够接近的生成样本呢？数字表亲（digital cousin）。这与数字孪生不一样，但也在一定程度上捕捉到了真实感。

这些模拟运行速度较慢，但目前存在一种混合生成物理引擎 —— 先生成部分内容，然后将剩余部分委托给经典图形管道。

现在，假如我们要模拟这个场景。可以看到，里面有固体、有液体，各种东西。如果让人类来建模，所需的时间会很长。

但现在，有计算机模拟了。

要知道，从左边的视觉效果到右边的视觉效果，可是足足花了 30 多年时间。但视频生成模型只用了一年时间从实现从左边到右边的跨越。

还记得我之前展示的这个视频吗？我骗了你们。这个视频里的像素没一个是真的。它完全是由一个自定义模型生成的。

我们是怎么做的呢？我们会使用一个开源的通用 SOTA 视频生成模型，然后在真实收集的数据的数据域上进行微调。

然后，使用不同的语言命令，你可以让模型想象不同的未来 —— 即便这个场景从未在真实世界中发生过。

这些也都是生成的。

其中有个例子是机器手弹奏尤克里里，但实际上，这个机器手还完全做不到这一点，但 AI 依然可以生成这样的视频。

这就是模拟 2.0。视频生成的多样性大大增加，但目前执行起来速度很慢。我称之为 Digital Nomad（数字游民），可以说它已经进入了视频扩散模型的梦境空间。它是将数亿个互联网视频压缩成这种多元宇宙的模拟，就像奇异博士一样 —— 在梦境空间中实例化机器人，基本上机器人现在可以与任何地方的所有事物都同时互动。

具身 Scaling Law

下面来看具身 Scaling Law。

在模拟 1.x 时代，大规模模拟需要大规模的计算。问题是，随着规模的扩大，物理 IQ 会撞墙，因为这个人工构建的系统的多样性有限。

而在神经世界模型的模拟 2.0 时代，物理 IQ 会随计算的扩展而指数级增长。图中的交汇点便是神经网络超越传统图形工程的地方。

这两者加在一起，将成为我们扩展下一代机器人系统的核能。

引用黄仁勋的话就是：「买得越多，省得越多。」

然后，我们把这些数据用来训练「视觉-语言-动作模型」。它能接收像素和指令输入，然后输出电机控制信号。这就是三月份 GTC 上黄仁勋主题演讲中开源的 GR00T N1 模型的训练方式。

这里展示了一个在实际机器人上运行它的案例。看起来很浪漫，但你无法想象我们在训练期间做了多少清洁工作。在这个示例中，它能够完美地抓起香槟。

不仅如此，它还可以执行一些工业任务，拿取一些工厂物件，还可以进行多机器人协调。

GR00T N1 模型是开源的，事实上这个系列的后续模型都将继续开源。

展望未来：物理 API

那么，下一步是什么呢？我认为是物理 API（Physical API）。

想一想，5000 年来，虽然人类的生活整体好了很多，但做晚餐的方式可能与古埃及人没有本质差别。

也许人类历史的 99% 的时间里，我们都保持着这样的结构：用人力方式处理原材料，最终建立起文明。但在最近的 1% 时间里，大概最近 50 年的时间里，人工劳动量正在减少，我们拥有高度专业化、高度复杂的机器人系统，它们一次只能做一件事。而且它们的编程成本很高。目前，我们处于人类劳力与机器人共存的时代。

未来，物理 API 将无处不在。

类似于 LLM API 移动数字和比特构成的块，物理 API 能移动原子构成的块，也就是给软件一个物理执行器来改变物理世界。

在这个物理 API 之上，将会有新的经济范式。我们会有新的物理提示技术（physical prompting）来给机器人下达指令，教它们学习新任务。语言有时候是不够的。

我们还会有物理应用商店和技能经济。举个例子，米其林大厨不必每天都亲自去厨房了 —— 他可以教会机器人，把晚餐作为一项服务提供。

这里再次引用黄仁勋的一句话：「所有会动的东西都将自动化。」

未来某天，当你回家，你会看到干净的沙发和烛光晚餐，你的伴侣会对你微笑，而不是因为你没有洗脏衣服而对你大喊大叫。

这是因为你上个月买了两台人形机器人，可能是 GR00T N7，它们默默工作，与你生活的背景融为一体，就像是环境智能（ambient intelligence）。你甚至不会注意到它们通过物理图灵测试那一刻，因为那就是像是另一个平常的星期二一样。

请在手机微信登录投票

投票：你认为物理图灵测试会在什么时候被攻克？单选

2028 年之前

2028-2030 年

2030-2040 年

2040-2050 年

2050 年之后

#OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

，时长10:09

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts，Open AI 研究科学家，强化学习科学团队负责人，同时也是 MIT 理论物理中心访问科学家。他还曾与 Sho Yaida 合著了《The Principles of Deep Learning Theory（深度学习理论的原理）》一书，该书有发布在 arXiv 上的免费版本：https://arxiv.org/abs/2106.10165 。他还曾在 Facebook AI 研究中心担任过研究科学家，之后他参与创立了一家为国防、情报和金融服务客户提供协作情报文本挖掘产品的公司 Diffeo—— 该公司后来被 Salesforce 收购，Dan Roberts 也一并加入了 Salesforce。后来，他又加入了红杉资本，成为了一位 AI Fellow。去年，他离开红杉资本，加入了 OpenAI。

整理了 Dan Roberts 的演讲内容。

正如你们许多人知道的，去年 9 月，OpenAI 发布了一个名为 o1 的模型。

我这里展示的是一张图表，y 轴代表模型在某种数学推理基准测试上的表现，但真正有趣的是 x 轴。

左边的图表显示，随着训练时间的增加，模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。

但真正令人兴奋的是右边的图表：它表明在「测试时间」增加时，模型的表现也会得到改善。模型学会了思考，思考的时间越多，进步就越大。

这个发现太重要了，我们甚至把它印在了 T 恤上。因为这代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展，还包括测试时间扩展。

这种发现意味着什么呢？意味着我们有了一个会思考的模型。

上个月，我们发布了一个更强大的推理模型 o3，比如图中展示的一张草稿图，你可以提问「Solve the QED problem on the left（解决左边的量子电动力学问题）」。

来源 https://openai.com/index/thinking-with-images/

这类模型在测试时，能进行思考，分析图像，并放大图像细节（过程如下）。

其实这张纸上有个费曼图（一种用于表示量子场论计算的图示），模型经过分析后，最终给出正确答案 —— 整个过程大约花了一分钟。

顺便提个趣事：在发布这篇博客前，一位同事让我验证这个计算。尽管这是教科书级别的题目，但我花了 3 个小时才搞定 —— 我得一步步追踪它的推导，确保所有正负号都正确，最后才能确认答案是对的。

那么，我们现在能做什么？模型思考一分钟，就能完成一些相当复杂的计算 —— 但我们的目标远不止于此。

不如做个思维实验吧！说到思维实验，谁最擅长？阿尔伯特・爱因斯坦。

让我们以爱因斯坦为对象做个假设：如果回到 1907 年（他刚开始研究广义相对论之前），让他回答一道广义相对论的期末考题 —— 这题目其实是 GPT-4.5 编的，但我可以保证，这确实是你会遇到的那种典型问题。

我们设想爱因斯坦在 1907 年被问到以下问题：问题 1：黑洞与施瓦西度规。

当然，作为 OpenAI，我们不会直接问爱因斯坦，而是问「爱因斯坦 v1907-super-hacks」。

我认为爱因斯坦是个视觉型思考者。他总爱用电梯和自由落体来举例 —— 学广义相对论时肯定会碰到这些概念，还有那些橡胶膜上的小球的比喻。不过看起来他中途走神去琢磨量子力学了……（我们的模型也经常这样分心！）。

看起来「爱因斯坦 v1907-super-hacks」的思考逐渐接近黑洞的概念了…… 不过我也不知道为什么他会把自己代入到这些场景里。但答案是正确的。

但事实证明，GPT-4.5 没能答对这道题，我们得靠 o3 才能解决。

我在 OpenAI 的工作大概就是专门验证这些物理计算，而不是搞 AI 研究。

不过重点在于：模型给出了正确答案，而爱因斯坦当然也能答对 —— 只是他花了 8 年时间。

目前，我们的模型已经可以通过一分钟的思考重现教科书级别的计算及其衍生问题。但我们的目标远不止于此 —— 我们希望它们能为人类知识与科学的前沿做出重大贡献。

我们在回到这张图表（左边），如何才能实现这一目标？通过图表可以看出，模型的性能会随着训练量的增加而提升，而我们的训练方法主要是强化学习（Reinforcement Learning, RL）。

这次演讲我最想传达的核心信息是：我们需要持续扩大强化学习的规模。一年前，我们发布了 GPT-4o，当时所有的计算资源都投入在预训练（pre-training）上。

但随后，我们开始探索新方向，这才有了如今测试阶段的「思考」能力 —— 比如在 o1 模型中，我们额外增加了强化学习计算量（RL compute）。

当然，这只是一个卡通演示，比例不一定对，但其方向是对的。o3 用到了一些强化学习，但未来强化学习计算的比重会更大。到某个时候，强化学习计算可能会成为主导。

这是我从 Yann LeCun 的幻灯片借的一张图，大概是他 2019 年的一场演讲。这张幻灯片有点复杂，难以理解。其中关键在于：预训练就像这个大蛋糕，强化学习应该像上面的小樱桃。我们实际上要做的是颠覆这个迷因。我们的蛋糕大小可能不会变化，但我们可能会有一颗超大的强化学习樱桃。

那么，我们计划怎么做呢？但我不能泄漏我们的计划。我一开始担心我的幻灯片会被删减一些，但一切都还好。

我们的计划其实很明显：大规模扩展计算。

什么意思呢？我们将筹集 5000 亿美元，在德克萨斯州的阿比林买一些地，建一些建筑，在里面放一些计算机。我们也将训练一些模型，然后希望能借此获得大量收入，然后我们会建更多建筑并在里面放更多计算机。这就是我们扩展计算的方式。与此同时，我们也将发展 scaling 科学，这就是我在 OpenAI 所做的事情。

这张图来自介绍 GPT-4 的博客文章，那时候我还没有加入 OpenAI，但这张图确实振奋人心。下面的绿点是 GPT-4 的最终损失性能，前面的灰点是训练过程中记录的性能。而这张图采用了对数尺度。

将这些点连起来，可以得到一条趋势线，我们可以借此预测未来：训练前所未有的大模型确实能带来好处。

现在我们有了测试时间计算和强化学习训练的新方向。我们是否必须抛弃一切，重新发明应用于扩展计算的含义？所以我们需要扩展科学。

这张图来自播客主理人 Dwarkesh。他问，既然现在 LLM 已经记住了如此多的知识，为什么还没有做出什么科学发现呢？

原因可能是我们提问的方式不正确。在研究中，很多时候提问的方式比研究过程和答案更重要。所以关键在于问对问题。

还有一个可能原因是，我们现在过于关注竞赛数学等问题了，这就导致模型在不同问题上的能力参差不齐。

总之，我认为真正会发生的事情是扩大规模。我们需要进一步扩大规模，这是有用的。

总结一下，这就是接下来会发生的事情。这是去年 AI Ascent 上的一张图，其中 Y 轴是半对数的。可以看到，智能体 / AI 所能处理的任务的长度每 7 个月就会翻一倍。根据这张图，他们可以执行长达一个小时的测试了，但明年呢？大概会在 2 到 3 小时之间。

不过，预测 AI 的发展并不容易，大家总是错的。但假如这张图的预测是对的，沿着其趋势，到 2034 年 AI Ascent 时，AI 将有能力进行长达 8 年的计算和思考 —— 而 8 年正是爱因斯坦发现广义相对论所用的时间。

我想，或许 9 年后，我们就将有能发现广义相对论的模型。

#Harmon

协调视觉表征，统一多模态理解和生成（模型已开源）

吴思泽，南洋理工大学MMLab@NTU四年级博士生，导师是Chen Change Loy，研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等，在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。

论文标题：Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

论文链接: https://arxiv.org/abs/2503.21979

代码地址: https://github.com/wusize/Harmon

项目主页：https://wusize.github.io/projects/Harmon

在线 Demo: https://huggingface.co/spaces/wusize/Harmon

1. 背景：统一多模态理解生成

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。从视觉表征的维度看，现有的统一模型通常采用如下三种范式：

（1）理解生成统一使用 CLIP/SigLIP 表征，并使用 Diffusion Model 将视觉表征解码成图像，如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互，本质上是将 LLM 输出的 embeddings 作为生成 condition。

（2）理解生成统一使用 VQGAN/VAE 表征，如 Transfusion、Show-o、ViLA-u 等，由于 VQGAN/VAE 用于图像压缩，主要表征纹理等细节，缺乏视觉语义的建模，此类方法通常理解能力偏弱。

（3）解耦理解生成表征，理解任务使用编码高层语义的 CLIP/SigLIP，生成任务使用 VQGAN，如 Janus、UniFluid 等。

2. 协调理解和生成的视觉表征

不同于 Janus 割裂理解和生成的视觉编码，Harmon 探索在统一的视觉表征上协调图像理解和生成。

（1）MAR 的启发

图一：Linear Probing 和特征图激活

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。如图一所示，MAR 的 Linear Probing 结果远超 VQGAN、VAE，同时对视觉语义概念有更精确的响应。

（2）Harmon：理解生成共享 MAR Encoder

图二： Harmon 框架图

Harmon 框架如图所示，通过共享 MAR Encoder 同时促进理解和生成：

i）图像理解：MAR Encoder 处理完整图像，LLM 根据图像内容和用户指令输出文本

ii) 图像生成：沿用 MAR 的掩码建模范式，MAR Encoder 处理可见（已经生成）的图像内容，LLM 中实现模态交互，MAR Decoder 预测剩余的图像内容。

（3）Harmon 的三阶段训练

i）模态对齐：第一阶段对齐 MAR 与 LLM，冻结 LLM 参数，仅训练 MAR Encoder 和 Decoder

ii）联合训练：在大规模图文数据上联合训练，并更新所有模型参数

iii）高质量微调：最后一个阶段使用高质量数据微调，并将图片分辨率从 256 提升至 512

3. 实验结果：理解生成两开花

（1）Harmon 在多模态理解基准上，取得接近 Janus-Pro 的效果

（2）在文生图基准上，Harmon 优势显著

i) 在图像生成美学基准如 MJHQ-30K 上，Harmon 大幅领先同类的统一模型，并接近或超过文生图专家模型如 SDXL。

ii) 在衡量指令跟随和一致性的 GenEval 基准上，Harmon 大幅领先所有专家模型和统一模型。

iii) 同时，Harmon 能在文生图中更好地利用多模态大模型的世界知识，在 WISE benchmark 上远超 Janus 等统一模型。

(3) 协同生成理解

实验中，相较于解耦理解生成地视觉编码器（图三d），Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标（图三b），显示出统一视觉表征对于生成理解协同进化的巨大潜力。

图三：理解生成的相互作用

4.可视化效果

#只有通过海量测试才能抓住泛化性的本质吗？

本文第一作者为上海交通大学博士生程磊，指导老师为上海交通大学张拳石教授。

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

论文标题：Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions
论文地址：https://arxiv.org/abs/2502.10162

本文就上述问题给出了初步的探索，从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。

一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐

尽管深度学习基础理论近年来取得了长足的发展，但一些根本性问题仍未得到有效解决。典型地，对神经网络泛化性的研究依然停留在一个相对较浅的层面——主要在高维特征空间分析解释神经网络的泛化性（例如通过损失函数景观平滑度来判断泛化性）。

因此，我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。

然而，不同于判断「人工神经网络」的泛化性，人们对自身「生物神经网络」可靠性的有一种更加直接有效的评价策略——在内在表征层面的交流。让我们跳出不言自明的直觉，反观人类智能，其实人类的交流是一种很神奇的能力，两个上百上千亿神经元的黑盒大脑（而且链接方式也各不相同）居然可以不约而同地共享相同的底层符号化认知——不仅包括语言，还包括一些下意识的公共认知（比如底层的 image segmentation 都是下意识自动完成的），让人们可以直接可以从中层逻辑层面进行交流和对齐。人类彼此通过交流中层表征逻辑层面来实现对齐和互信，而不是像对待神经网络那样，需要通过长期的、大样本的、统计上的正确率来证明其可靠性。

比起端到端评测中统计意义的正确率，通过中层表征逻辑的交流，是判断一个智能体表征可靠性的一个更直接、更高效、更本质的手段。

二、两个本质的数学问题

然而，上述在中层精细表征逻辑上的交流与对齐，目前并没有被应用在人工神经网络上，根本上，工程实现上种种细节问题都可以归结为两个基本的数学问题。

问题 1：能否数学证明神经网络内在复杂混乱的各种精细表征逻辑，可以被清晰地、简洁地解释为一些符号化的概念。

这里，我们要面对一个看似相互矛盾的「既要又要」，既要解释的「简洁性」又要同时兼顾解释的「全面性」——用简洁的符号化操作解释神经网络中几乎全部的细节表征变换。

实验室前期提出的「等效交互解释理论」部分解决了上述问题。它证明了大部分神经网络的分类置信度的计算可以等效表示为一个符号化的（稀疏的）「与或交互逻辑模型」。

具体地，给定一个包含 n 个输入单元的输入样本，其一共存在 2^n 种不同的遮挡状态，我们发现神经网络在这 2^n 种不同遮挡状态下对目标类别的不同分类置信度，都可以表示为少量的（比如 50 到 150 个）与或交互逻辑的数值效用之和。

即无论输入样本被如何遮挡，其各种变化的分类置信度都可以被这个「与或交互逻辑模型」中 50 到 150 个交互所全部拟合出来。我们将其称为交互的「无限拟合性」——这是一个很强的结论，在数学上保证了「神经网络内在精细表征逻辑可以被严格地解释为少量的『与或交互概念』」。

图 1. 与或交互的无限拟合性。给定一个神经网络，总能构造出一种稀疏的「与或交互逻辑模型」，仅使用少量的显著「与或交互」来精确匹配神经网络在所有 2^n 种遮挡样本上的输出。

如图 1 所示，「与或交互逻辑模型」中的交互分为「与交互」和「或交互」两类。其中，「与交互」S 表示神经网络所等效建模的输入单元间的「与逻辑」关系，当集合 S 内所有输入单元均出现在输入样本（不被遮盖）时，该交互为神经网络的分类自信分数贡献一个数值效应

。例如，图 1 中 LLaMA-7B 模型编码了一个与交互

，当集合内输入单元均出现时，为 LLM 预测下一个词素「space」（目标单词 spacetime 中的词素 token）贡献一个正的数值效应。「或交互」表示神经网络所等效建模的输入单元间的「或逻辑」关系，当集合 S 内任一输入单元出现（不被遮盖）时，该「或交互」为神经网络的分类自信分数贡献一个数值效应

。例如，上图中模型编码了一个或交互

，当集合内任一输入单元出现时，为 LLM 预测下一个单素「space」贡献一个正的数值效应

；

相关内容参考博客：

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

三、通过符号化交互概念复杂度分布直接判断神经网络的泛化性

问题 2：我们能否直接通过神经网络所等效建模的符号化交互概念，直接判断神经网络的泛化性。

由于问题 1 已经在实验室前期工作中给出了理论解答，本文主要讨论解决问题 2——究竟能否在交互概念表征层面判断一个黑盒模型的泛化性，即我们能否从某个具体的数学指标，直接将神经网络的交互概念表征和神经网络的泛化性建立起内在的相关性。

由于我们证明了神经网络的分类置信度可以被解构为少量交互概念数值效用的和，所以神经网络整体展现出的泛化性可以被视为不同交互概念泛化性的集成效用。

交互泛化性的定义：如果一个交互概念在训练样本中大量出现，同时也在测试样本中也大量出现，那么我们认为这个交互概念被泛化到了测试样本。反之，如果一个交互概念只在训练样本中出现，而不在测试样本中出现，那么这个交互被认为是不可稳定泛化的。比如，在人脸检测中，神经网络往往建模两个眼睛和一个鼻子之间的交互概念，如果这样的交互概念在训练样本和测试样本上出现的频率是差不多的，那么这个交互概念就是可以稳定泛化的。

交互概念的阶数（复杂度）：交互概念 S 的复杂度可以由交互概念的阶数来量化，即交互概念 S 中包含输入单元的数目，i.e. order(S)=|S|。高阶（复杂）交互包含更多的输入单元，而低阶（简单）交互包含更少的输入单元。

交互概念的分布：对于所有 m 阶交互，我们通过计算所有 m 阶正交互的强度之和和所有 m 阶负交互的强度之和来表示交互概念在不同阶数（复杂度）上的分布。具体计算公式如下

我们发现了，神经网络中不可泛化交互往往在不同阶数（复杂度）上呈现纺锤形分布，而可泛化的交互往往在不同阶数（复杂度）呈现衰减形分布。

以图 2 为例，大多数可泛化的交互是低阶交互，少部分是中高阶交互。此时可泛化的交互随着阶数升高强度逐渐减小，其在不同阶数上的分布呈现衰减形；而大多数不可泛化的交互主要是中阶交互，很少有极低阶交互和极高阶交互，而且每一阶的不同交互效用近似正负抵消。换言之，不可泛化的交互在不同阶数上的分布呈现纺锤形。

图 2. 我们发现神经网络的交互可以被分解为两部分：服从衰减形分布的可泛化的交互和服从纺锤形的不可泛化的交互

实验一：当我们训练神经网络直至过拟合，我们发现神经网络过拟合前的交互往往呈现衰减形分布，而过拟合阶段新出现的交互往往呈现纺锤形分布。

具体地，我们使用神经网络测试集 loss 与训练集 loss 之间的 loss gap 将神经网络的学习过程分成两个阶段：第一阶段，神经网络的 loss gap 趋近于 0，对应神经网络的正常学习过程。此时神经网络主要编码了低阶交互，交互的分布呈现衰减形，如图 3 所示。第二阶段，神经网络的 loss gap 开始上升，对应神经网络的过拟合过程，此时神经网络开始编码中高阶交互。我们使用

分别表示神经网络在第二阶段过程中（相对于第一阶段末）所新编码的 m 阶正交互的强度之和和 m 阶负交互的强度之和。我们发现，在过拟合阶段神经网络新编码的交互呈现纺锤形分布。这印证了不可泛化的交互往往呈现纺锤形分布，而可泛化性的交互往往呈现衰减形分布的结论。

图 3. 交互在神经网络训练过程的两阶段动态变化过程。第一阶段，由模型参数初始化产生的噪声交互（时间点 A）被逐渐去除（时间点 B），神经网络主要编码了衰减形分布的交互。第二阶段，神经网络新编码的交互的分布呈现纺锤形（时间点 C 和 D）。

实验二：当我们修改训练好的神经网络，使其包含更多的不可泛化的表征时，新出现的交互往往呈现纺锤形。

具体地，给定一个训练好的神经网络，我们使用以下两种方法向神经网络注入不可泛化的表征：1. 向神经网络参数中添加高斯噪声，2. 向样本中添加对抗扰动。与实验一类似，我们使用

表示神经网络在修改后相对于修改前所新编码的 m 阶正交互的强度之和和 m 阶负交互的强度之和。

我们发现，修改后新出现的交互的分布呈现纺锤形。此外，当我们逐渐增大所加入的噪声强度（方差），此时新出现的纺锤形分布的交互强度也逐渐增大。上述实验部分印证了不可泛化的交互的分布往往呈现纺锤形的结论。

图 4. 注入噪声后，新出现的交互分布（

）呈现纺锤形。随着注入噪声强度的逐渐增加，新出现的呈现纺锤形分布的交互强度随之增大。理论估计的纺锤形交互分布（

）（见公式(6)）与实验测量的新出现交互分布高度匹配。

我们提出了两个参数模型来建模神经网络的不可泛化交互的纺锤形分布和可泛化交互的衰减形分布。

第一，对于纺锤形分布的建模，我们团队在之前的工作中发现了给定一个完全初始化的神经网络，此时神经网络编码的交互是无意义的高斯噪声。这时，可以证明给定完全初始化的神经网络，当输入单元的数量为 n 时，神经网络的 m 阶交互的强度和满足二项分布

。因此，在当前研究中，我们进一步发现对于一个训练过的神经网络，如果不是所有的输入单元之间都有交互时，我们可以引入比例系数

来构造如下参数模型来建模该模型不可泛化的交互的纺锤形分布。

其中伽马函数

的作用是将阶乘拓展到实数范围

，进而实现了将二项分布

拓展到实数范围，即

。

第二，对于衰减形分布的建模，我们团队在之前的工作中理论并实验验证了神经网络在训练过程的第二阶段的交互变化动态过程。定理 2.3 表示了神经网络参数和数据集中的不稳定噪声可以去除神经网络的相互抵消的中高阶交互，即避免过拟合。因此，我们可以通过设置

，来去除给定神经网络交互中的过拟合成分，从而得到衰减形分布的可泛化交互。

图 5 展示了在不同噪声强度

下的理论交互分布和实际过拟合过程中的实际交互分布，结果显示定理 2.3 确实能有效预测过拟合前的交互分布。

图 5. 比较神经网络的过拟合阶段的不同时间点点实际交互的分布

和理论交互的分布

。

因此，我们提出以下参数模型来建模神经网络可泛化交互的衰减形分布。

给定一个神经网络，我们提出算法将神经网络建模的交互的分布分解成服从衰减形分布可泛化交互

和服从纺锤形分布的不可泛化交互

两部分。

四、实验验证

实验一：验证纺锤形交互参数模型能精确匹配实际情景的不可泛化的交互分布。

具体地，在第三节的实验二中我们提出通过在神经网络参数上加高斯噪声以及在输入样本上加对抗扰动的方法为神经网络注入不可泛化的表征，我们发现注入不可泛化的表征后新出现的交互分布呈现纺锤形。结果如图 4 所示，可见我们提出的理论模型能精确匹配实际场景下的不可泛化的交互分布。

实验二：验证提取可泛化交互分布和不可泛化交互的分解算法的可靠性。

本实验中，我们同时提取神经网络建模的可泛化交互的分布和不可泛化的交互的分布。我们将从以下两个角度来验证算法的可靠性。

角度 1. 当我们往神经网络中注入更多的不可泛化的表征时，分解算法是否能精确提取出更显著的不可泛化交互分布和几乎稳定的可泛化交互分布。

角度 2. 我们使用拟合误差

和

来评估分解算法的拟合质量。

实验结果如下图所示，分解算法提取的不可泛化交互的纺锤形分布随着噪声增大逐渐显著，而可泛化交互的衰减形分布几乎不变。此外，拟合误差的相对强度较小，表明拟合质量较优。该实验验证了使用分解算法确实能有效提取神经网络的可泛化交互的衰减分布和不可泛化交互的纺锤形

图 6. 使用分解算法提取可泛化交互的衰减型分布

与不可泛化交互的纺锤型分布

。当我们向神经网络注入更多不可泛化的表征时，分解算法提取出了更显著的不可泛化交互分布和几乎稳定的可泛化交互分布。

实验三：在真实场景应用下使用分解算法提取可泛化交互的分布和不可泛化交互的分布。

具体地，我们在多个模型在多个数据集上使用分解算法来提取两种交互的分布。对于每个模型，我们选取了该模型在训练过程中的四个时间点，进而展示神经网络训练过程中可泛化交互的分布和不可泛化交互的分布变化。结果如图 7 所示

图 7. 使用分解算法从真实神经网络训练过程中的不同时间点提取可泛化交互的衰减型分布

与不可泛化交互的纺锤型分布

。在正常学习阶段，神经网络主要去除了纺锤形分布的交互，并学习了衰减形分布的交互。在过拟合阶段，DNN 进一步学习纺锤形分布的交互。

我们发现，在神经网络训练的学习阶段（此时 loss gap 几乎为零)主要消除了纺锤形分布的不可泛化的交互，这种交互来源于神经网络初始化引起的纯噪声。当学习阶段结束时，神经网络主要编码的是衰减型分布的可泛化的交互。

然后，在神经网络训练的过拟合阶段（此时神经网络的 loss gap 开始增加），神经网络又重新学习了纺锤形分布的交互。这表明神经网络开始编码不可泛化的正负相互抵消的中高阶交互，这对应了典型的过拟合现象。

实验四：基于我们的理论，我们甚至可以解构出 Qwen2.5-7b 模型和 DeepSeek-r1-distill-llama-8b 模型的异同。

DeepSeek 模型中大部分交互可以泛化到测试样本。Qwen 模型的交互正负抵消较多，在中阶交互部分呈现出较为明显的「纺锤形」——这些正负抵消的纺锤形交互代表过拟合的表征，而且这些纺锤形分布的交互的泛化性比较差。

五、结论和讨论

我们通过神经网络所编码的交互概念的泛化能力来解释神经网络整体的泛化能力的根因。我们发现神经网络中可泛化的交互通常呈现衰减型分布，而不可泛化的交互通常呈现纺锤型分布。此外，给定一个神经网络，我们进一步提出了一种方法来提取神经网络编码的可泛化交互和不可泛化交互。

然而，我们的工作距离解释模型泛化性的终极理论还很遥远。我们仅描述了可泛化交互作用和不可泛化交互作用在复杂度上的总体分布趋势。然而，对于特定样本，理论依然无法从微观角度解释神经网络所建模的全部交互概念。

#xxx

查看全文

http://www.xdnf.cn/news/373789.html

Pyhton生活手册-NumPy数据类型：从快递单到智能家居的数据变形术

高精度之加减乘除之多解总结（加与减篇）

C++GO语言微服务和服务发现②

Java—— 泛型详解

PLC可编程控制器在接地电阻柜接触器柜中的智能化控制实践

最大公约数gcd和最小公倍数lcm

`RotationTransition` 是 Flutter 中的一个动画组件，用于实现旋转动画效果

跨境热销产品安全危机：一场召回事件背后的全球合规挑战

提高工作效率的新选择[特殊字符]——Element Plus UI库

基于小波神经网络（WNN）的回归预测模型【MATLAB】

精品，第22章 Python3 数据类型与文件操作详解

Jmeter中的Json提取器如何使用？

数据分析2

C.printf 函数基础

2025数维杯数学建模A题完整参考论文（共36页）（含模型、可运行代码、数据）

`C_PiperInterface` 类接口功能列表

Shell编程之正则表达式与文本处理器

数字果园管理系统的设计与实现（Tensorflow的害虫识别结合高德API的害虫定位与Websocket的在线聊天室）

springboot生成二维码到海报模板上

【计算机视觉】OpenCV项目实战：基于OpenCV的图像分割技术深度解析与实践指南

Linux系统：虚拟文件系统与文件缓冲区（语言级内核级）

深度解析 MySQL 与 Spring Boot 长耗时进程：从故障现象到根治方案（含 Tomcat 重启必要性分析）

关于一些平时操作系统或者软件的步骤转载

助力你的Neovim！轻松管理开发工具的魔法包管理器来了！

DataBinding与Kotlin优化视图绑定

#物理图灵测试

#OpenAI科学家Dan Roberts谈强化学习扩展的未来

#Harmon

#只有通过海量测试才能抓住泛化性的本质吗？

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

相关文章：