当前位置：首页 > news >正文

51c大模型~合集144

news 2025/7/1 10:02:55

我自己的原文哦~ https://blog.51cto.com/whaosoft/14012173

#Gemini Robotics On-Device

刚刚，首个能在机器人上本地运行的xxGemini来了

今天，Gemini 家族迎来了一个新成员：Gemini Robotics On-Device。

这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作（VLA）模型，可以帮助机器人更快、更高效地适应新任务和环境，同时无需持续的互联网连接。

，时长00:35

从名字也能看出来，Gemini Robotics On-Device 属于 Gemini Robotics 系列。该模型于今年三月发布，基础模型是具备多模态推理能力的 Gemini 2.0。

据介绍，Gemini Robotics On-Device 展现出了强大的通用灵活性和任务泛化能力，并且经过优化，可在机器人机体上高效运行。

由于该模型无需数据网络即可运行，因此它对延迟敏感型应用非常有用，可确保在连接中断或零连接的环境中保持稳健性。

对此，网友自然是好评多多：

对于开发者，谷歌还将发布 Gemini Robotics SDK，可用于轻松评估 Gemini Robotics On-Device 在其任务和环境中的表现。另外，开发者还可使用该 SDK 在 DeepMind 的 MuJoCo 物理模拟器中测试该模型，并快速将其适应到新领域 —— 只需 50 到 100 个演示即可。

顺带一提，加州大学伯克利分校、谷歌 DeepMind、多伦多大学、剑桥大学联合推出的 MuJoCo Playground 刚刚获得了今年的机器人科学与系统会议（RSS 2025）杰出演示论文奖。

论文标题：Demonstrating MuJoCo Playground

论文地址：https://www.roboticsproceedings.org/rss21/p020.pdf

模型功能和性能

Gemini Robotics On-Device 是用于双臂机器人的基础模型，其设计目标是最大限度地减少计算资源需求。它基于 Gemini Robotics 的任务泛化和灵活性能力，并且：

针对快速运行灵巧操作实验而设计。
可通过微调来提升性能，从而适应新任务。
经过优化，可在本地运行并实现低延迟推理。

DeepMind 进行了不少视觉、语义和行为泛化能力实验，整体来看，Gemini Robotics On-Device 在这些广泛的测试场景中表现强大：能够遵循自然语言指令，并完成诸如拉开袋子拉链或折叠衣服等高度灵巧的任务 —— 所有这些操作均可直接在机器人上运行完成。

，时长01:10

即使是本地运行的 On-Device 模式，Gemini Robotics On-Device 也表现出了相当不俗的泛化性能。

可以看到，相比之前最佳的本地端机器人模型，Gemini Robotics On-Device 的优势非常明显。

在更具挑战性的分布外任务和复杂的多步骤指令方面，Gemini Robotics On-Device 也优于其他本地端方案。

当然，如果开发者无需严格要求在本地运行模型，也可以使用 Gemini Robotics 模型。对该模型我们就不过多赘述了，详情可参阅技术报告：

https://arxiv.org/pdf/2503.20020

可适应新任务，可跨xx泛化

Gemini Robotics On-Device 也是 DeepMind 推出的首个可供微调的 VLA 模型。虽然许多任务可以开箱即用，但开发者也可以选择调整该模型，从而获得更佳性能。

该模型只需 50 到 100 个演示即可快速适应新任务，这表明该模型能够将其基础知识泛化到新任务。

DeepMind 在七项不同难度的灵巧操作任务上测试了该模型，包括拉开午餐盒拉链、画卡片和倒沙拉酱。

下图展示了 Gemini Robotics On-Device 模型的任务适应性能，其中使用的示例少于 100 个。

他们还研究了让 Gemini Robotics On-Device 模型适应不同的机器人。训练时，他们采用的是 ALOHA 机器人，但实验表明能够进一步将其调整用于双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。

在双臂机器人 Franka 上，该模型可以执行通用指令，包括处理之前未见过的物体和场景、完成诸如折叠连衣裙之类的灵巧任务，或执行需要精准度和灵活性的工业皮带装配任务。

，时长01:32

Apollo 人形机器人则是完全不同的机器人形态，而该模型也能相当好的适应。同一个通用模型可以遵循自然语言指令，并以通用方式操控不同的物体，包括之前未见过的物体。

，时长01:10

DeepMind 表示：「Gemini Robotics On-Device 标志着在使强大的机器人模型更易于获得和适应方面迈出了一步。」

看起来，我们离真正的xx智能时代又更近了一步。

Gemini 模型的其它更新

除了 Gemini Robotics On-Device，谷歌 DeepMind 还进行了一个可能不受免费用户欢迎的更新：下调免费可用额度。

博主 @ai_for_success 发现，Gemini 2.5 Flash 的免费可用额度从每日 500 次请求腰斩到了每日 250，而 Gemini 2.0 Flash 的免费可用额度更是从 1500 膝斩至 200。

https://x.com/ai_for_success/status/1937493142279971210

谷歌 AI Studio 和 Gemini API 产品负责人 Logan Kilpatrick 回应称这是他们的策略：「随着新模型的推出，降低或取消上一代模型的免费套餐。」

另外，谷歌今天还宣布在谷歌 AI Studio 和 Gemini API 中推出了图像生成模型 Imagen 4 和 Imagen 4 Ultra。

目前我们已经可以在谷歌 AI Studio 中免费试用它们。

这里我们也简单测试了一下，让 Imagen 4 Ultra 生成了一张包含猫、机器人与外星人的彩色水墨画：

参考链接

https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

https://x.com/GoogleAI/status/1937554536966619399

https://x.com/OfficialLoganK/status/1937620224758759750

#ROLL

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。RL 不仅显著提升了模型的对齐能力，也拓展了其在推理增强、智能体交互等场景下的应用边界。围绕这一核心范式，研究社区不断演化出多种优化策略和算法变体，如 Agentic RL、RLAIF、GRPO、REINFORCE++ 等。这些新兴范式虽然形式各异，但底层需求高度一致：几乎都涉及多模块协同（Actor、Critic、Reward、Ref）与多阶段流程（生成、推理、训练）的高效调度。这也对训练框架提出了更高的要求：不仅要支持大规模模型的高效训练，还需具备良好的可扩展性与开发友好性。因此，一套真正高效、可扩展且用户友好的 RL 系统框架，成为业界刚需。

近日，淘天集团携手爱橙科技正式开源了全新一代强化学习训练框架 ROLL（Reinforcement Learning Optimization for Large-scale Learning）。ROLL 以用户体验为核心设计理念，专为「高效・可扩展・易用」而打造，彻底打通从小模型到 600B+ 超大模型的 RL 训练落地路径。

ROLL 在诸如人类偏好对齐、复杂推理和多轮自主交互场景等关键领域显著提升了大语言模型的性能，同时具备超高的训练效率，目前 ROLL 已成功应用在多个淘天集团内部业务场景，为业务创新提供了强大的技术支持。

开源项目：https://github.com/alibaba/ROLL

论文标题：Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library

论文地址：https://arxiv.org/pdf/2506.06122

总体而言，ROLL 具有以下关键特性：

多任务强化学习：内置丰富的 RL 任务支持，涵盖数学、代码、通用推理、开放式问答、指令遵循等，一套训练循环即可多领域联合优化，采样率与数据权重可灵活动态调整。
智能体强化学习（Agentic RL）：原生支持多环境、多角色智能体 - 环境交互（游戏、多轮对话等），并具有灵活的并行化和内置管理功能，可满足多种任务需求。
算法友好：提供灵活且丰富的 RL 策略配置，包括但不限于多种减小方差的 baseline、不同奖励标准化方式和 data mask 策略等，同时也开箱即用地支持 PPO、GRPO、Reinforce++ 等算法。
丰富的训推引擎：灵活支持 vLLM、SGLang、Megatron-Core、DeepSpeed 等主流推理 / 训练引擎，参数透传，无需修改底层代码直接适配不同版本。
弹性资源调度与分布式并行：基于 Ray 的多角色分布式架构，灵活资源分配，训练无缝支持 MegatronCore 5D （DP / TP / PP / CP / EP）并行高效利用异构硬件，从单机到千卡集群均能轻松运行。
极致易用与模块化扩展：Rollout Scheduler、AutoDeviceMapping 等关键模块极大简化 pipeline 开发和调试，支持按需组合套件，后端推理 / 训练引擎自由切换。
样本级调度与动态采样：样本级 Rollout 生命周期调度机制，支持异步奖励计算、动态采样、按样本裁剪与 EarlyStopping，显著提升训练效率与资源利用率。
可观察性：集成了 wandb / swandb / tensorboard，支持实时跟踪每个领域、每个策略、每个奖励的性能 —— 从高层概况到细粒度诊断。

目前，该项目已经在 GitHub 上收获了 1000+ star。

面向用户友好设计的 ROLL

ROLL 是一款面向用户友好设计的强化学习框架。具体来说，ROLL 从一开始就考虑了三类用户诉求，即：技术先驱者、产品开发者和算法研究者。

对于技术先驱者，支持异构大规模 GPU 集群下的弹性扩展与容错，能够在上千卡环境下持续稳定地完成 600B+ 大模型训练，极大降低训练成本和中断风险。
对于产品开发者，可灵活配置奖励函数、环境、采样比例与数据配比，轻松实现各种任务场景的 RL 训练落地。
对于算法研究者，单卡 / 少卡资源下也能高效实验，所有模块高度抽象，极易实现自定义 RL 算法、奖励与环境，极大缩短从想法到验证的周期。

ROLL 针对三大用户群体设计

ROLL 的技术细节

那么，ROLL 是如何做到的呢？具体来说以下多项创新：

基于《Hybridflow: A flexible and efficient rlhf framework》中提出的单控制器架构，该团队引入了定义良好的并行工作器（Parallel Worker）抽象，可实现灵活且模块化的强化学习训练流程，从而简化了新想法的实验过程。
引入了优化后的并行策略（Parallel Strategy）和数据传输（Data Transfer）模块，从而可以在资源受限设备上执行，还能实现快速、可扩展且容错的训练。
为了在生成阶段对每个提示词样本的生命周期进行细粒度的管理，该团队提供了 Rollout 调度器，可以简化响应生成、环境交互和奖励计算之间的流程编排。
该团队专门设计了环境（Environment）工作器和奖励（Reward）工作器，可以提供高效且可扩展的智能体环境交互和奖励计算。
该团队还实现了资源池（Resource Pool），并利用了 AutoDeviceMapping 来实现高效的工作器调度和资源的优化分配。

下图展示了 ROLL 的整体架构。ROLL 接收的输入是用户定义的强化学习数据流及其相关配置。基于这些输入，分布式执行器和调度器可协调管理各类工作节点和调度节点。而 AutoDeviceMapping 模块则负责管理已分配资源池中的计算资源，并高效地将工作节点和调度节点绑定到其分配的资源上。

ROLL 的架构，由用户输入层、分布式执行器和调度器、Auto Device Mapping 模块以及资源池组成。

而在运行时，ROLL 首先会根据提供的设备配置，分配由 GPU 和 CPU 资源组成的资源池。在 RL 数据流的指导下，系统会创建一个 Rollout 调度器和多个并行工作器。其中，Rollout 调度器负责管理生成阶段中每个提示词样本请求的生命周期。

然后，根据训练和模型配置，ROLL 会实例化并行策略，以决定每个并行工作器的并行策略和执行后端。一旦并行工作器建立完成，ROLL 将依据用户指定的设备映射配置，调用 AutoDeviceMapping 模块，从资源池中为各个并行工作器分配相应的计算资源。如下图所示。

ROLL 的运行时设置和训练工作流程。

接下来，进入训练迭代。在生成阶段，首先将一批样本送入 Rollout 调度器以生成响应。在此过程中，Actor 模型可能会与环境工作器进行交互，以实现智能体强化学习任务中的多轮环境互动。同时，系统也会调用奖励工作器来计算奖励信号，从而支持高级采样技术（例如动态采样）以提升采样效率。

在接下来的推理阶段，会执行 Critic、Reward 和 Ref 模型（前提是这些模块已在 RL 数据流图中启用）的前向传播。随后，迁移协议会对生成阶段输出的响应进行分片，并将其分发给各个活跃的并行工作器。

在训练阶段，Critic 和 Actor 模型利会用已准备好的奖励信号更新各自的参数。此外，在下一轮训练迭代中，Actor 模型还会通过 ModelUpdateGroup 与生成阶段同步模型参数，确保训练与生成过程的一致性。

另外，ROLL 也支持 wandb、swandb、TensorBoard 等实验可视化方案。更多技术细节请访问原论文。

ROLL 的实验表现

在 Qwen2.5-7B-base 与 Qwen3-30B-A3B-base 等模型上，ROLL 取得了显著的跨领域多任务性能提升。例如，在 RLVR pipeline 训练下，Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52（2.89 倍），Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62（2.30 倍），这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升，且未发生模型崩溃等异常现象，展现了 ROLL 极佳的稳健性和实用性。

Qwen2.5-7B-base 在不同领域上的准确度表现。

Qwen3-30B-A3B-base 在不同领域上的准确度表现。

除了标准 RL 流程，ROLL 在智能体交互场景中同样展现了强大的稳健性。研发团队在三个典型环境下对 ROLL 的泛化性与适应性进行了实证验证：

Sokoban（推箱子）：在经典网格推箱子任务中，模型在训练集上的成功率从 16.8% 提升至 26.0%，验证集成功率从 13.3% 提升至 35.2%。表明智能体在多轮决策与空间规划方面能力显著增强。此外，该训练结果具备良好的跨任务迁移能力，能有效泛化至其他环境如 FrozenLake。

在 SimpleSokoban 环境训练的性能变化趋势，SuccessRate 表示达到目标的成功率 EffectiveActionRate 表示执行有效动作的比例。

FrozenLake（冰冻湖）：训练成功率从 16.8% 提升至 26.0%，有效动作占比从 69.1% 提升至 88.8%；验证集成功率也从 12.9% 升至 23.8%。

在 FrozenLake 环境训练的性能变化趋势。

WebShop（网页购物）：在模拟真实购物任务中，训练和验证集上的成功率从 37% 大幅提升至超过 85%。同时，平均每轮交互动作数从 7 降至 4，表明模型在复杂自然语言指令下逐步学会了高效完成目标任务，体现出较佳的操作效率和指令理解能力。

在 WebShop 环境上的准确度趋势。

ROLL 仍在进化

ROLL 已在 GitHub 上线，并在短时间内收获大量 star。项目仍在持续迭代，未来将支持 Qwen2.5 VL Agentic RL、一步式异步 pipeline、FSDP2、DeepSeekV3 等新特性，欢迎关注并参与共建。

项目主页：https://github.com/alibaba/ROLL
论文介绍：https://arxiv.org/pdf/2506.06122

开源精神是推动技术发展的核心引擎，ROLL 研发团队期待更多优质人才加入。这里既有技术攻坚的硬核挑战，也有共创未来的无限可能。

热招岗位：

PostTrain 框架研发工程师：https://talent-holding.alibaba.com/off-campus/position-detail?lang=zh&positinotallow=7000016304
大模型训练算法专家：https://talent.taotian.com/off-campus/position-detail?lang=zh&positinotallow=1217103

顺带一提，淘天集团第四届技术节【硬核少年技术节 4.0】将于 2025 年 6 月 30-7 月 4 日在北京和杭州两地隆重举办。本届技术节持续一周，包含技术市集、博见社、Openday、AI 狼人杀、AI Hackathon 比赛等各类丰富多彩的 AI 展示场、AI 交流场、AI 开放场、AI 比赛场。

#清华牵头搭起大模型安全的下一级阶梯

从「浅对齐」到「深思熟虑」

本工作共同第一作者包括：张亦弛，清华大学计算机系三年级博士生，师从朱军教授，研究方向是多模态大模型和大模型安全，在CVPR、NeurIPS、ICML等顶会发表多篇论文，曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust；张思源，清华大学计算机系一年级硕士生，导师是苏航副研究员，研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。

在大语言模型（LLM）加速进入法律、医疗、金融等高风险应用场景的当下，“安全对齐”不再只是一个选项，而是每一位模型开发者与AI落地者都必须正面应对的挑战。然而，如今广泛采用的对齐方式，往往只是让模型在检测到风险提示时机械地回复一句“很抱歉，我无法满足你的请求”——这种表面看似“安全”的机制，实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 “浅对齐（Shallow Alignment）”[1]：模型的预测分布仅在回复开头做出了有效偏移，却从未真正理解潜在的风险语义。一旦越狱提示换个包装，模型就轻易“破防”；而过度依赖这类简单训练，也往往会牺牲模型在通用任务中的语言能力与响应质量，带来“安全 vs. 能力”的两难局面。

越狱攻击可以绕过大模型安全护栏[2]

在这一背景下，清华团队突破了这一范式，率先将系统2思考引入大模型对齐，提出了融合自省推理的安全对齐框架STAIR。与其让模型学会“条件反射式的闭嘴”，不如让它真正学会思考之后再开口。STAIR通过三步走增强了对齐流程，验证了测试时扩展（Test-Time Scaling）对模型安全的贡献。在不降低通用能力的前提下，STAIR可以显著提升开源模型在越狱攻击下的鲁棒性，在StrongReject上超越了以安全著称的Claude3.5。它不止教模型“闭嘴”，而是教模型深入分析风险。它不再是安全与性能的零和博弈，而是将二者在推理下有机统一。STAIR的阶梯引领大模型安全对齐从本能拒答走向深度自省，从格式安全迈向思维安全。

这篇题为Improving SafeTy Alignment with Introspective Reasoning的工作刚刚被ICML2025收录为Oral论文（录用率~1%）。而在STAIR的理论实践基础上，研究团队进一步推出了RealSafe-R1模型，率先针对开源的DeepSeek-R1模型进行安全对齐，可以在不牺牲模型推理能力的前提下大幅提升安全性。相关代码、训练数据、模型均已开源，详细算法和实验细节请参考原始论文。

论文标题：STAIR: Improving Safety Alignment with Introspective Reasoning

论文链接：https://arxiv.org/abs/2502.02384

开源链接：https://github.com/thu-ml/STAIR

论文标题：RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
论文链接：https://arxiv.org/abs/2504.10081
开源链接：https://huggingface.co/RealSafe

接下来，让我们一起“登梯”...

向安全对齐引入系统2思考

当前安全对齐方法大多基于简短拒答的数据形式训练模型，使得模型隐式建立了危险输入到直接拒答的直觉性映射，类似于系统1快思考（System 1 Thinking）。研究者们受系统2慢思维（System 2 Thinking）提升模型推理能力的技术路线启发，设计了STAIR对齐框架，力求帮助大模型真正理解风险指令，进行系统化的自我思考和风险评估，而不是条件反射式地拒绝回答。

从“本能拒绝”到“理性分析”的三步走

STAIR框架共包含三个阶段：结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展，能够在不具备推理能力的模型上，实现性能与安全的双效提升。

阶段 1：结构化推理对齐

第一阶段通过少量的结构化思维链数据进行有监督微调，使模型初步获得推理能力。研究者设计了一个分步式的输出格式，每一步推理都包括一个总结标题和详细描述，从而帮助模型在应对风险时能够逐步分析问题，并调用GPT-4o对安全和通用问题进行回复生成。模型在分步的内省深思后再正式输出明确的回答，该回答需要经过风险识别后，作出合理拒绝或给出无害信息。这一阶段的训练也为后续按步骤切分回答，进行树搜索和推理时搜索提供了基础。

阶段 2：基于安全感知蒙特卡洛树搜索的自提升

第二阶段使用蒙特卡洛树搜索的方式构造自采样的step-level偏序数据对，并使用DPO损失微调模型。研究者以每一个推理步骤/最终回答步骤作为一次动作，但与传统蒙特卡洛树搜索不同的是，为了同时优化模型的安全性和通用能力，在搜索过程中奖励信号由安全分数和有用性分数两个维度共同提供，即安全感知的蒙特卡洛搜索（Safety-Informed MCTS）。奖励函数的设计一共包括3个条件：安全优先条件，有用性双向条件，以及在仅考虑一个维度时能退化为原始蒙特卡洛搜索的条件。

安全优先条件：安全回复总能获得比不安全回复更高的分数。

有用性双向条件：当回复是安全时，越详细越有用则分数越高；当回复存在风险时，越能帮助解决问题则分数越低。

单一维度退化条件：当只考虑安全性或有用性中的一个维度时，蒙特卡洛搜索的过程退化为使用对应分数的搜索。这可以保证多元评分不影响原有搜索框架的效果。

基于以上条件，研究者通过理论推导，给出了一个满足要求的最简单形式的奖励函数：R(H, S) = S·H + 2S，其中分数由模型进行自我打分。在经过足够多轮的树搜索后，研究者使用阈值控制策略来采样step-level的偏序数据对，来提供细粒度的微调信号。整个采样-微调过程将进行多轮，每一轮使用不同的训练问题，以不断强化模型的推理能力和安全对齐程度。

实验选用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型，利用从PKU-SafeRLHF（安全问答）、JailbreakV（越狱数据）和UltraFeedback（通用数据）三个主流数据集中采样的问题，对模型进行训练。在StrongReject、WildChat等安全评估和GSM8k、AlpacaEval等通用测试上的实验结果显示，经过前两阶段的微调，模型在安全性能上相比训练前获得了显著提升，同时更好地平衡了安全性能和通用性能。

阶段 3：测试时扩展

第三阶段是训练一个奖励模型，并指导语言模型进行测试时搜索。用于训练奖励模型的数据同样采自第二阶段的蒙特卡洛搜索树中，采样step-level数据和全程轨迹数据，并通过Bradley-Terry模型的优化目标微调过程奖励模型（process reward model）。后续基于该奖励模型给出的信号进行Best-of-N搜索或束搜索，实现锦上添花的效果。在Llama-3.1-8B模型上，结合束搜索，在StrongReject上达到了0.94的分数，显著超过多个主流商用模型，达到了与Claude-3.5相当的安全性能。

这意味着推理增强的技术手段也可以在安全对齐上取得可靠的效果。安全与推理的有机统一，可以推动模型真正理解、分析并应对风险，在保障安全的同时保留语言能力与实用性。

RealSafe-R1的安全对齐实践

在STAIR的理论基础上，研究团队进一步推出了RealSafe-R1模型，针对开源的DeepSeek-R1模型进行安全对齐。通过构建15,000条安全感知的推理轨迹，RealSafe-R1在提升模型安全性的同时，保持了其强大的推理能力，避免了传统方法中常见的性能损失问题[3]。

具体地，研究者通过提示DeepSeek-R1在推理过程中注意安全风险，加强安全护栏，提升模型推理过程的安全性。经过一轮的有监督微调，各尺寸推理模型的安全性都得到了大幅提升，同时在数学、代码等推理任务上的表现不受影响，甚至在事实性方面也有一定改进。

随着推理模型成为主流，已有不少工作研究推理模型的安全风险，也使其安全加固成为一个重要研究问题。STAIR框架提供了一条可行路径来赋能模型的深度安全对齐，以及在安全对齐时更好地维持其通用能力。期待相关领域未来进一步的研究与突破。

参考文献

[1]Safety Alignment Should Be Made More Than Just a Few Tokens Deep

[2]Jailbreaking Black Box Large Language Models in Twenty Queries

[3]Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable

#上下文工程（context engineering）

提示词工程、RAG之后，LangChain：上下文工程开始火了！

AI 时代，你可能听说过提示词工程、RAG、记忆等术语。但是很少有人提及上下文工程（context engineering）。

其实，这一术语并不新鲜，近两年很多智能体构建者一直在关注这个事情。至于重要性，下面这张图很好地概括了上下文工程与提示词工程、RAG 等的关系。

在传统的提示工程中，开发者通常侧重于精心设计提示语，以期得到更好的答案。然而，随着应用的复杂度不断增加，逐渐显现出单纯依赖提示已无法满足现代智能体的需求。如今，提供完整且结构化的上下文信息比任何巧妙的提示词更为重要。

上下文工程就是为此诞生的。

上下文工程是构建动态系统，以正确的格式提供合适的信息和工具，从而使得 LLM 能够合理地完成任务。

大多数时候，当一个智能体没有很好地执行任务时，根本原因是没有向模型传达适当的上下文、指令和工具。LLM 应用正在从单一的提示演变为更复杂、动态的智能系统。

因此，上下文工程正在成为 AI 工程师可以发展的最重要技能。

什么是上下文工程？

上下文工程是指构建动态系统，以合适的格式提供准确的信息和工具，使 LLM 能够合理完成任务。

上下文工程是一个系统。复杂的智能体可能需要从多个来源获取上下文。这些上下文可能来自应用开发者、用户、先前的交互记录、工具调用结果或其他外部数据。将这些内容整合起来需要一个复杂的系统。

上下文工程是动态的。许多上下文信息是动态生成的。因此，构建最终提示的逻辑也必须是动态的，而不仅仅是一个静态模板。

必须提供准确的信息。智能体系统表现不佳的常见原因往往是缺乏正确的上下文。LLM 无法「读心」—— 因而你必须为它们提供准确的信息。输入的是垃圾，输出的也只会是垃圾。

需要提供合适的工具。并不是在所有情况下，LLM 仅凭输入就能够解决任务。在这些情况下，如果你希望赋能 LLM 来完成任务，你需要确保它拥有合适的工具。这些工具可以是用来查找更多信息、采取行动，或者介于两者之间的任何东西。为 LLM 提供合适的工具和提供正确的信息一样重要。

格式很重要。就像与人类沟通一样，如何与 LLM 沟通也很重要。在确保 LLM 能够使用这些工具时，工具的输入参数非常重要。

为什么上下文工程很重要

当智能体系统出错时，通常是因为 LLM 出错。从第一性原理思考，LLM 出错有两个原因：

底层模型本身出错，模型的能力不够；

底层模型没有传递适当的上下文以生成正确的输出。

随着技术的不断优化，更多情况下（尤其是当模型变得更强大时）模型的错误是由第二个原因造成的。传递给模型的上下文可能由于以下几种原因导致性能下降：

缺少上下文，模型做出正确决策所需的上下文没有被传递。模型不是心灵感应的，如果没有给它正确的上下文，它就无法知道该信息的存在。
上下文格式不当。就像与人类沟通一样，沟通方式非常重要！当你将数据传递给模型时，数据的格式绝对会影响模型的响应。

上下文工程与提示工程有何不同？

为什么要从提示工程到上下文工程转变？早期，开发者专注于巧妙地给出提示以引导模型给出更好的答案。但随着应用变得更加复杂，现在越来越明显的是，提供完整且结构化的上下文比任何巧妙的措辞更为重要。

我们可以将提示工程视为上下文工程的一个子集。即使你拥有所有的上下文，如何在提示中组装它仍然至关重要。区别在于，你不仅仅是在设计一个与单一输入数据有效的提示，而是要处理一组动态数据并将其正确格式化。

上下文的一个关键部分通常是关于 LLM 应该如何表现的核心指令。这通常也是提示工程的一个重要部分。

好的上下文工程应该包括：

工具使用：当一个智能体访问外部信息时，需要拥有能够访问这些信息的工具。当工具返回信息时，需要以 LLM 最容易理解的方式对其进行格式化。
短期记忆：如果对话持续一段时间，可以创建对话摘要，并在未来使用该摘要。
长期记忆：如果用户在之前的对话中表达了偏好，需要获取这些信息。
提示工程：在提示中清楚地列举智能体应该如何操作的说明。
检索：动态地获取信息，并在调用 LLM 之前将其插入到提示中。

原文链接：

https://blog.langchain.com/the-rise-of-context-engineering/

#是造「人」还是造「生产力」？

xx智能的终极命题

「卖铲人」华为给xx智能出了另一种解法。

华为开发者大会 2025（HDC 2025）上发布了 CloudRobo xx智能平台。该平台可视为xx智能的「技术底座」，通过云端的「强智能」赋能机器本体，规避了本体侧智能进程慢，且部署成本高的痛点，摸索出一条涉猎范围最广、实现速度最快的xx智能落地路径。

「华为云的目标是让一切联网的本体都成为xx智能机器人。」华为云计算 CEO 张平安说道。

不做「本体」转而去做云端的技术赋能，华为云的布局思路虽是更符合自身需求的战略方向，但也为xx智能带来了发展新视角。

xx智能追求的并不是本体「构型」，或是本体的智能程度，而是站在「更好用」的终局视角，从人形到移动机器人再到卡车，让一切机器「xx智能化」，加速其在物理世界真正用起来的脚步。

这种终局思维，极大拓宽了xx智能产业化的想象空间，并为商业落地指明了潜在的效率最优路径。

工业领域的实践印证了这条路径的可行性：在工业喷涂领域，CloudRobo 助力埃夫特机械臂快速适应新喷涂任务；在半导体制造领域，CloudRobo 赋能优艾智合物流机器人，实时同步生产系统，更新任务规划，完成物料搬运及运输。

其合作方优艾智合、埃夫特等伙伴，都早已完成规模化商业应用。在工厂中丝滑穿梭，并完成海量作业。当业界仍在探讨人形机器人的「生产力时代」何时到来时，这些早已完成大面积应用的机器人，已经在技术跃迁下，率先释放xx智能的生产力价值，在真实场景中规模化兑现，步入「正在进行时」。

基于此，一条更务实且前景清晰的xx智能发展路线已然浮现：摒弃对单一形态的过度追求，转而聚焦于通过高效、普适的智能赋能手段，激活现有及未来广泛机器的「xx智能」潜力，以实际场景的生产力提升为标尺，构建可快速规模化复制的价值闭环。这标志着xx智能产业正迈向产业化的成熟阶段。

场景需要的不是「形」，是生产力

华为云用一张简单且足够直接的图片诠释了「xx智能」。除了活跃在聚光灯下的人形机器人外，还有在工业场景步履不停的移动机器人、生产线上忙忙碌碌的协作机械臂等。除了同样具备「本体」和「大脑」之外，其还有另一个共性：生产力。

业内之所以普遍将人形机器人视为xx智能的「究极形态」，原因也是对其「生产力想象空间」的期待。和人类外观高度统一，能完成和人类相似的动作，在理想状态下，人类可执行的任务范畴，人形机器人亦能覆盖，并可无缝融入以人体尺度设计的物理空间。

然而，该论断的深层要义实为追求「更广泛的任务执行能力」，其重点在于后者「生产力」而非形态本身。从应用场景的本质需求出发，关键在于机器人能否提供解决实际问题的有效生产力，其具体形态并非核心考量因素。

以工业制造场景为例，其高度标准化流程、成熟的自动化基础及高度结构化的环境，使之成为xx智能落地的首要阵地。该场景的另一关键特征在于对稳定性的严苛要求（即极低容错率），这直接驱动xx智能机器人必须确保运行的高度可靠性，以满足工厂端提质增效的核心应用目标。

在某国际头部晶圆厂的 8 寸晶圆车间，优艾智合超 50 台 OW8 晶圆盒搬运机器人，实现了从光刻到清洗全流程的自动化物流。OW8 机器人采用高精度 SLAM 导航技术，能够在复杂的车间环境中自主避障和路径规划。其独特的四面开口底盘设计，使得设备维护更加便捷，维修时间缩短 60% 以上。此外，机器人还配备了专利减震机构，确保运输过程中的振动值控制在 0.1g 以下，有效降低了晶圆破损率。

在实际运行中，OW8 单台机器人日均处理物料超过 240 次，整个系统单日物料处理量突破 12,000 次，完全满足了工厂 7×24 小时连续生产的需求。

优艾智合的案例已经再次验证了场景对于「生产力」需求的本质，是能干活。

除了工厂场景外，商业场景的高动态环境和实时变化的需求，亦要求机器人在感知 - 决策 - 执行闭环中飞速奔跑。目前商用机器人擎朗、云迹等正在完成从单一配送到xx智能的转换。机器人不再囿于方寸之间的配送，而是深度嵌入工作流完成配送、清洁等多任务，并打通全自动工作流，进一步减少人工参与。

综观工业与商业场景的实践，xx智能的产业落地路径已然清晰：其终极目标并非塑造某种特定的「终极形态」，而是锻造普适的「生产力引擎」。

无论是半导体车间里精准搬运的移动机器人，还是餐厅酒店中穿梭服务的配送机器人，其价值核心都在于以可靠的作业能力，深度融入工作流，切实解决效率瓶颈，释放人力并创造可量化的经济效益。

优艾智合、擎朗、云迹等企业的规模化应用证明，形态各异的本体搭载高效的大脑，正在多元场景中将「生产力时代」从愿景变为现实。产业的未来，不在于对单一形态的无限逼近，而在于如何让这枚「生产力引擎」适配更广阔的场景，驱动更高效的自动化进程，最终实现机器智能在物理世界的泛在价值兑现。

xx智能的终极命题，是生产力工具的涌现与进化。

不是对立面，而是共存

剖析完场景真正需求后，新的问题随之而来：尚未大规模应用的人形机器人该何去何从？其和多形态xx智能机器人是迭代关系还是共存？

用一个最贴切生活的案例即可解答。

一家蓬勃发展的大型公司，既有深耕底层技术的「专家型」研发部门，又有穿梭在各个业务线、将线串联精准高效推进目标落地的「管理岗」运营团队。二者并非迭代取代，而是深度协同、优势互补。

对标到xx智能生产力来看，专家型就是当下已经应用的xx智能机器人，人形机器人担任的就是游走在各作业岗位完成非标作业的角色。在二者的相互配合下，场景等来了最懂它的解决方案。

当「形色各异」的xx智能以「集群协作」的形式出现在场景中，其新的课题为如何让机器人之间紧密配合，不仅能做到对工作任务的毫米级统一理解，还要做到机器人间的交流无障碍。

目前业内有几条技术路线，有的侧重本体间智能化提升，而有的选择从底座开始迭代。

以优艾智合为例，其研发的 MAIC 系统，以多模态通用基座大模型 +「一脑多态」端侧xx模型的混合架构为主，创造性地将通用智能控制系统与模块化硬件形态相结合。先赋予其更聪明的智慧，再让群体间做到「善于沟通」。

其中，多模态通用xx基座大模型负责复杂任务的规划和推理，训练数据来源于自主搭建的多模态空间数据平台，兼容上百种硬件形态的训练，具有海量的多模态真实训练数据，并能兼容主流的开源预训练数据集。

基础模型为多模态 VLM 模型，整合细分领域专业 RAG，在从指令到控制的转化中，添加规划器和评估器，规划器负责将复杂指令离散化，评估器在线评估控制质量并异常召回。

一脑多态的端侧控制模型负责多形态机器人的高频实时控制，以机器人智慧大脑 MAIC（Mobile AI Comprehension) 为核心，实现多形态机器人的多模态融合感知、自适应多臂协同操作、多形态移动控制、全域物流调度。该控制模型既保留了 AI 算法的推理能力，又能保证模型执行效率和精确性，是xx智能机器人高泛化操作的核心能力所在。

优艾智合还构建了面向多个专业领域的 Agent 聚合平台，将大模型与工业软件的深入融合。实现模型训练与微调，针对不同行业差异化的复杂下游任务的快速训练，基于 RAG 和思维链训练具备思考能力的专家 Agent，以及辅助全局生产排程优化。

透过优艾智合发布的视频可见，多「构型」的机器人在互相配合时，移动机器人每个动作精准无误一步到位，人形机器人在复杂任务中拆解动作，运动轨迹能做到细节微操级的调整。在跨形态机器人群体的认知耦合下，共同点亮了xx智能的「光束」。

因此，xx智能产业的终极竞赛，并非「人形」与「多形态」的路线之争，而在于谁能率先打造出普适、开放、高效的「群体智能协同」，编织一张覆盖物理世界的「智能生产力网络」。这要求产业参与者突破单体智能的思维桎梏，以生产力思维拥抱协同生态的构建。

#机器人顶会RSS 2025奖项公布

大牛Pieter Abbeel领衔研究获杰出Demo奖

恭喜获奖者。

RSS（Robotics: Science and Systems，机器人科学与系统会议）是机器人领域顶级学术会议，自 2005 年起每年举办一次，该会议旨在促进机器人领域的科学研究和技术应用的发展。

今年大会已于 6 月 21 日至 25 日在美国洛杉矶举行。杰出 Demo 论文奖、杰出系统论文奖、杰出学生论文奖、杰出论文奖多个奖项已经公布。

地址：https://roboticsconference.org/program/awards/

杰出 Demo 论文奖

论文标题：Demonstrating MuJoCo Playground

论文链接：https://www.roboticsproceedings.org/rss21/p020.pdf

论文主页：https://playground.mujoco.org/

机构：UC 伯克利、Google DeepMind、多伦多大学、剑桥大学

作者：Kevin Zakka, Baruch Tabanpour, Qiayuan Liao, Mustafa Haiderbhai, Samuel Holt, Jing Yuan Luo, Arthur Allshire, Erik Frey, Koushil Sreenath, Lueder Alexander Kahrs, Carmelo Sferrazza, Yuval Tassa, Pieter Abbeel

论文摘要：该研究提出了 MuJoCo Playground—— 这是一个基于 MJX 构建的完全开源机器人学习框架，其核心设计目标是大幅简化仿真环境搭建、模型训练以及仿真到现实场景的迁移全流程。研究人员仅需执行简单的「pip install playground」安装命令，即可在单 GPU 硬件上完成分钟级策略训练。

该框架支持四足机器人、人形机器人、灵巧手及机械臂等多类型机器人平台，能够直接基于状态观测或像素级输入实现零样本仿真到现实迁移。

这一突破性成果依托于高度集成的物理引擎、批量渲染器与训练环境技术栈。

四足机器人

人形机器人

机器人跌倒又恢复

杰出系统论文奖

论文标题：Building Rome with Convex Optimization

论文地址：https://arxiv.org/pdf/2502.04640
论文主页：https://computationalrobotics.seas.harvard.edu/XM/
机构：哈佛大学
作者：Haoyu Han、Heng Yang

论文摘要：该研究 (i) 提出了一种名为 SBA（scaled bundle adjustment）的公式，其利用学习到的深度将二维关键点测量提升到三维；(ii) 该研究还设计了一个经验上紧致的凸半有限规划 (SDP) 松弛函数，用于求解 SBA 并达到可验证的全局最优解；(iii) 该研究使用 Burer-Monteiro 分解和基于 CUDA 的信赖域黎曼优化器（简称 XM）求解极端规模的 SDP 松弛问题；(iv) 构建了以 XM 为优化引擎的运动结构 (SfM) 流程，并展示了 XM-SfM 在重建质量方面优于现有流程，同时速度显著提升、可扩展性更强且无需初始化。

XM 是一款功能强大且可扩展的优化引擎，专为大规模 SfM（Structure-from-Motion）任务而设计。该动图展示了其在短短一小时内高效求解 10,155 帧并达到全局最小值的能力。

重建结果（左）与来自 Replica 数据集的输入图像（右）。

杰出学生论文奖

论文标题：Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL

论文地址：https://arxiv.org/pdf/2504.15425
论文主页：https://mit-realm.github.io/def-marl/
机构：MIT
作者：Songyuan Zhang, Oswin So, Mitchell Black, Zachary Serlin, Chuchu Fan

论文摘要：多机器人系统通常要求机器人能够协作完成团队目标，并确保安全性。该问题通常被形式化为一个受约束的马尔可夫决策过程（CMDP），其目标是最小化全局代价，并将约束违反的平均值控制在用户设定的阈值以下。

受现实世界机器人应用的启发，该研究将安全性定义为「零约束违反（zero constraint violation）」。

此外，该研究还采用约束优化的 epigraph 形式来提升训练稳定性，并由此提出名为 Def-MARL 的新型「集中训练 - 分散执行」多智能体强化学习算法。

在两种不同模拟器的 8 项任务测试中，Def-MARL 不仅整体性能最优、满足安全约束，还保持了稳定的训练过程。通过 Crazyflie 四旋翼飞行器的实体实验进一步证明：相较于其他方法，Def-MARL 能更安全地协调智能体完成复杂协作任务。

穿越狭窄走廊

协作检查目标

杰出论文奖

论文标题：FEAST: A Flexible Mealtime-Assistance System Tackling In-the-Wild Personalization

论文地址：https://www.roboticsproceedings.org/rss21/p083.pdf
论文主页：https://emprise.cs.cornell.edu/feast/
机构：康奈尔大学、密西根大学等
作者：Rajat Kumar Jenamani, Tom Silver, Ben Dodson, Shiqin Tong, Anthony Song, Yuting Yang, Ziang Liu, Benjamin Howe, Aimee Whitneck, Tapomayukh Bhattacharjee

论文摘要：物理看护机器人有望改善全球数百万需要帮助喂养的人的生活质量。然而，由于在部署过程中出现的活动（例如，吃饭、喝水、擦嘴）、环境（例如，社交、看电视）、食物和用户偏好的多样性，家庭用餐辅助机器人仍然面临极大的挑战。

该研究提出了 FEAST—— 一个灵活的进餐辅助系统，可在真实环境中进行个性化调整，以满足对照护对象的特殊需求。

系统设计遵循三大原则：适应性、透明性与安全性。FEAST 系统通过以下方式践行这些原则：（一）采用模块化硬件设计，可灵活切换辅助进食、饮水与擦嘴功能；（二）提供包括网页界面、头部姿势识别和实体按钮在内的多样化交互方式，以适应不同用户的功能需求与使用偏好；（三）运用参数化行为树架构，支持通过大语言模型进行安全透明的个性化调整。

结果表明：与仅限于固定定制的最先进基线系统相比，FEAST 能提供更广泛、透明且安全的泛化功能。

时间检验奖

另外，RSS 2025 时间检验奖（Test of Time Award）论文也已经公布：Nathan Michael、Jonathan Fink 和 Vijay Kumar 于 2009 年发布的《Cooperative Manipulation and Transportation with Aerial Robots》。

论文地址：https://www.roboticsproceedings.org/rss05/p1.pdf

该论文探讨了控制多个机器人通过线缆在三维空间中操纵和运输有效载荷的问题，其中开发了用以确保有效载荷在期望姿态下保持静态平衡的机器人配置，同时兼顾张力约束，并对这些配置的有效载荷稳定性进行了分析。该团队也执行了模拟和实验，在一组空中机器人上演示了新提出的方法。

参考链接

https://roboticsconference.org/program/testoftimeaward/

https://roboticsconference.org/program/awards/

#ParallelComp

8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp

作者熊璟，香港大学一年级博士生，师从黄毅教授和孔令鹏教授。已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文，研究方向为高效大语言模型推理与自动定理证明。担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。个人主页： https://menik1126.github.io/

引言：大模型长文本推理的瓶颈与突破

随着大语言模型（LLMs）能力日益提升，AI 对超长文本的理解和处理需求也变得前所未有地重要。然而，目前主流 LLM 虽然依赖旋转位置编码（RoPE）等机制，在训练阶段能高效处理 4K-8K tokens 级别的上下文，但一旦推理阶段外推遇到如 128K 以上长度的长文本时，模型往往受到显存瓶颈的限制和注意力下沉 (attention sink) 等问题影响，采用常规的文本截断方案容易出现信息遗失，这极大限制了大模型在实际场景中的应用拓展。

业界目前尝试的处理长文本的高效推理主要的瓶颈有两个, 一个是位置编码的长度外推, 再一个是长度外推中的内存瓶颈。

目前的位置编码包括两类：一是基于频率区分的 NTK 插值方法，为不同频段位置编码设计专属策略以试图拓展长度上限；二是各种分块（chunking）方法，将文本切分、块内复用位置编码，避免重新训练的高昂成本。在处理超长上下文(>128K)外推时, 两种方案的优劣仍是未知的。

在解决显存瓶颈时 , 普遍采用了KV cache压缩的方案 , 并且一些方案发现在传统自回归场景下的注意力普遍遭遇了 “注意力下沉”（Attention Sink）现象影响 —— 模型的注意力极易集中在文本首尾 , 如果加以合理利用可以提升模型性能，但在并行注意力下的注意力下沉的机制是仍待探索的。

图 1: 标准 Attention 和并行 Attention 机制下的注意力分布虽然有所不同，但都容易陷入这种 “塌缩” 状态。而并行注意力机制在极长文本中产生的多峰新型 “sink” 现象，尚缺乏系统剖析与有效解决之道。

我们的创新：ParallelComp，高效超长文本推理新范式

针对上述问题，我们提出了一种全新的训练免调（Training-Free）长文本处理方案 ——ParallelComp，其核心包括并行 Attention 分块、KV 缓存智能淘汰与注意力偏差校准三大技术创新。

论文标题：ParallelComp: Parallel Long-Context Compressor for Length Extrapolation

论文链接: https://arxiv.org/abs/2502.14317

代码链接: https://github.com/menik1126/ParallelComp

图 2:ParallelComp 整体流程示意图

1. 并行分块注意力，让超长文本 “轻松分段消化”

首先，ParallelComp 借鉴并拓展了分块思想，将输入长文本按模型最大处理长度自动切分为若干块（chunk），并与查询一起并行输入模型进行本地 Attention 计算。这样不仅可以获得块内的注意力分布，还可以通过块的位置编码重用机制可以让模型灵活外推至 128K 级别的序列长度而性能无明显损失。（见图 2）

2. 双重淘汰机制，极致压缩显存消耗

分块淘汰（Chunk Eviction）：基于每个块内部 token 对查询的 “自信息量” 进行在线打分，仅保留信息量最高、对当前任务最相关的一部分文本块，极大缩减内存开销。
KV 缓存淘汰（Parallel KV Cache Eviction）：采用高效的 FlashAttention 推断算法，动态评估每个 token 在 Attention 计算中的全局重要性，自动驱逐影响较小的 token，实现了分块粒度的 KV 缓存智能压缩。

通过这两项机制，全流程推理所需显存可以压缩到 64G，且基于并行预填充过程即可完成高达 128K 长度推理任务，显著提升 Batch inference 和多 GPU 设置下的推理效率。

图 3：三类典型注意力偏置分布案例（U 型、山峰型、均匀型）

图 4: 几种 KV cache 驱逐策略后的模型的分布

3. 注意力偏差校准，攻克并行下的多峰 “sink” 现象

通过理论分析与大量可视化实证，我们发现并行分块机制下，不同于经典的 U 型 Attention Sink，容易出现多峰、区域性异常（见图 3、图 4）。为此，我们提出在 Attention 分布中对异常高分 token 实施 “偏差校准”—— 分层驱逐被极端关注的 token，使 Attention 分布趋于平滑，极大降低了模型关注 “死角” 和信息遗漏风险。

进一步的分层实验揭示，不同类型注意力偏差（“首段偏置”“尾段偏置”“中部塌缩”）可分别通过不同深度层的 token 淘汰策略加以缓解，为长文本推理设计提供了细致化的实操指引。

一个有趣的观察是有些特定层的注意力偏差对模型的上下文学习能力和推理能力至关重要。

表 1 : 不同层的 bias token 对特定任务的影响

i) 浅层（第 1-8 层）的首段偏置对于检索类任务至关重要。去除这些 token 会显著削弱模型性能。

ii) 深层（第 9-16 层）的尾段偏置在模型推理能力中起到关键作用。淘汰这些 token 会导致编码和数学任务的性能下降。

iii) 浅层的中部偏置（第 1-8 层）会损害模型的理解能力，淘汰这些 token 反而能够提升模型表现。而深层的中部偏置（第 24-31 层）有助于模型在阅读理解任务（如 En.MC）中的能力，去除它们会降低模型表现。

iv) 早期层（第 1-8 层）的尾段偏置对于模型的上下文学习能力同样非常重要。

理论与实验分析

我们的理论分析表明，并行 Attention 下 “稀疏性” 与 “有效信息量” 之间存在量化可控的门槛。随着 chunk 数量增多和长度变长，Attention 大概率只会专注于极少数 token。合理选择稀疏参数、分层校准策略，可在计算效率与信息保真度之间取得最优平衡。

表 2: 在 longbench 上的性能。

表 3: 在 infinitebench 上的性能。

表 4: PPL 的性能

表 5: 加速比和性能分析

大规模实验显示，ParallelComp 在 A100-80GB 单卡环境中，模型推理长度从 8K 无缝外推至 128K，prefilling 阶段加速高达 23.5 倍；使用仅 8B 参数、且仅在 8K 上下文训练的小模型即可在超长文本任务中整体性能达到 GPT-4o 性能的 91.17% , 在特定任务下可以超过GPT-4o的性能，甚至超过 Claude-2 和 Kimi-Chat 等高参数闭源大模型。这一成果充分证明，我们的方法不仅适用于算力受限场景，更为 LLM 实际落地部署带来了崭新范式。

结论与展望

ParallelComp 为长文本推理时代的 LLM 结构创新带来了 “多快好省” 的系统级跃升 —— 无需新训练、仅借助智能分块和淘汰机制，即可极大提升处理长度、效率，并摆脱原有的注意力失衡难题。我们期待该方法未来在法律文档、医学文献、长篇小说等需求复杂的产业应用中进一步开花结果。

#GoT-R1

让多模态大模型「想明白再画」！港大等开源：强化学习解锁视觉生成推理新范式

当前，多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展，但在处理包含精确空间关系、多对象属性及复杂组合的指令时，仍面临挑战。

针对此，来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队，继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后，现推出重要进展 ——GoT-R1。

该新框架通过引入强化学习，显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力，使其能够超越预定义模板，自主探索和学习更优的推理策略。GoT 和 GoT-R1 已全面开源。

GoT arxiv:https://arxiv.org/pdf/2503.10639
GoT github:https://github.com/rongyaofang/GoT
GoT-R1 arxiv: https://arxiv.org/pdf/2505.17022
GoT-R1 github:https://github.com/gogoduan/GoT-R1

GoT 框架首先通过引入显式的语言推理过程，在生成图像前对语义内容和空间布局进行规划，从而提升了生成图像的准确性和可控性。然而，GoT 的推理能力主要源于基于人工定义模板的监督微调数据，这在一定程度上限制了模型自主发现更优推理策略的潜力，有时可能导致生成的推理链条未能完全忠实于用户复杂的文本提示。

GoT-R1 的提出，旨在克服上述局限。它将强化学习（RL）创新性地应用于视觉生成的语义 - 空间推理过程，赋予模型自主学习和优化推理路径的能力。

强化学习训练前后GoT预定义推理链与GoT-R1自由探索推理过程对比

GoT：奠定 “先思考后生成” 的基础

理解 GoT-R1 之前，有必要回顾其基础框架 GoT 。传统的文本到图像模型，如 Stable Diffusion，FLUX 等，通常采用直接特征映射的方式，从文本嵌入到视觉特征，缺乏对场景内对象间复杂关系和空间布局的显式推理过程。这使得它们在面对包含多个实体、精确空间指令和细致属性描述的复杂文本时，生成效果往往未达预期。

GoT 框架旨在应对这一挑战，其核心思想是将 “直接生成” 模式转变为 “先推理规划，后引导生成” 的两阶段过程。具体而言，GoT 首先将用户输入的文本提示（Prompt）解析并扩展为一个详尽的 “生成思维链”（Generation Chain-of-Thought）。此思维链不仅包含对场景中各个构成元素的语义描述（例如，“一个现代风格的客厅，带有 shabby chic 风格的触感”）和具体物体（例如，“一个华丽的枝形吊灯”，“一个带框的镜子”），还附带了这些物体在图像中的精确空间坐标信息（例如，吊灯位于 (372,0), (613,254)，镜子位于 (157,251), (285,519)）。随后，这条融合了语义规划与空间布局的思维链将作为精细化指令，指导后续的图像扩散模型进行图像生成，确保最终输出与预先规划高度吻合。

GoT 框架的实现，依赖于构建的大规模推理链图文对数据集（超过 900 万样本，包括 840 万图像生成样本和 92 万图像编辑样本）以及先进的多模态大模型（如 Qwen2.5-VL ）进行推理链的生成。此外，其独创的语义 - 空间指导模块（Semantic-Spatial Guidance Module, SSGM）进一步增强了扩散模型遵循推理链进行精确生成的能力。

GoT模型：基于MLLM+Diffusion的图片生成与编辑

GoT-R1：通过强化学习精进推理

尽管 GoT 在提升复杂场景生成方面取得了显著成效，但其主要依赖监督学习范式，模型推理能力的提升受限于标注数据的模板和质量。GoT-R1 则引入了强化学习，旨在突破这一瓶颈，赋予模型更强的自主学习和泛化能力。

GoT-R1 面临的关键挑战之一是为视觉生成任务设计一个全面且有效的奖励（Reward）机制。该机制需要能够准确评估生成结果的多个维度：不仅包括最终图像与文本提示的语义一致性、空间布局的准确性、对象属性的正确绑定以及图像的整体美学质量，更重要的是，还需要对中间生成的 “思维链” 本身的质量进行监督，避免出现推理过程存在谬误或与最终图像不一致的情况。

针对此，GoT-R1 构建了一个基于 MLLM 的双阶段、多维度奖励框架，具体包含：

1. 推理过程评估奖励 (RPR)：

语义对齐奖励 (Rsem)：利用 MLLM 评估所生成的 GoT 推理链在语义层面是否完整、是否忠实于原始输入文本，以及是否存在内在逻辑矛盾或表述不清晰等问题。
空间对齐奖励 (Rspa)：此为 GoT-R1 的核心创新点。鉴于多数 LLM 或 MLLM 对于直接处理文本形式的坐标数据并判断其空间关系的能力有限，GoT-R1 提出将 GoT 推理链中规划的对象坐标信息，在虚拟的空白画布上渲染为包含具体边界框的可视化图像。随后，将此图像输入 MLLM 进行判断，评估其所展现的空间布局是否与原始文本提示中的空间关系描述（例如 “A 在 B 的左侧”）相符。这种 “文本坐标 -> 可视化布局 -> MLLM 评估” 的转换，显著提升了空间关系奖励信号的准确性和鲁棒性。

2. 推理至图像对齐奖励 (RRI)：

旨在确保最终生成的图像能够忠实地执行 GoT 推理链中的规划。具体实现方式是，利用 MLLM 在生成的图像中定位出推理链中规划的每一个对象，并获取其在图像中的实际边界框。然后，通过计算规划边界框与图像中实际边界框之间的交并比（Intersection over Union, IoU），来量化图像对推理链的遵循程度。

3. 文本提示至图像对齐奖励 (RPI)：

作为最终结果的评估，由 MLLM 从对象、属性、布局等多个维度，综合评价生成的图像与原始输入文本提示的整体一致性与符合度。

这些精心设计的多维度奖励信号，与高效的组相对策略优化（Group Relative Policy Optimization, GRPO）强化学习算法相结合，使得 GoT-R1 模型（例如，基于 Janus-Pro 模型）在训练过程中能够主动探索并学习到更优质、更符合复杂指令的推理策略，而不仅仅是重复训练数据中的固定模式。

GoT-R1模型：AR MLLM的强化学习训练示意

惊艳效果：复杂场景生成新 SOTA

GoT-R1 的效果如何？研究团队在极具挑战性的 T2I-CompBench 上进行了全面评估。

GoT-R1在T2I-Compbench下的量化评估

研究团队将其与当前主流的三类模型进行了对比，包括：1) 扩散模型（如 Stable Diffusion 系列、DALLE-3、FLUX.1 等）；2) 布局引导的两阶段模型（如 Ranni、LayoutGPT）；以及 3) 其他先进的自回归模型（如 Emu3、Janus-Pro 等）。

评估结果显示，GoT-R1-7B 模型在该基准测试上确立了新的 SOTA 性能。其强大之处体现在多个方面：首先，它在 T2I-CompBench 的六个评估类别中的五个（色彩、形状、纹理、非空间属性、复杂组合）取得了最高分。尤其是在由混合自然语言组合提示构成的 “Complex” 基准测试中，GoT-R1 展现出显著优势，证明了其在处理复杂、多层次指令上的卓越能力。

更重要的是，该成果清晰地展示了强化学习带来的提升。与仅使用 GoT 数据集进行监督微调的基线模型（Janus-Pro-7B-GoT）相比，经过强化学习优化的 GoT-R1-7B 模型在评估指标上实现了高达 15% 的提升。例如，在纹理（Texture）和形状（Shape）等类别的保真度上，GoT-R1-7B 相较于 GoT 微调模型取得了大幅度的进步。这些显著的性能增益，有力地证明了 GoT-R1 通过强化学习引导模型自主优化推理路径的策略，对于解决复杂的组合式图像生成任务是切实有效的。

为了验证强化学习是否真正提升了模型内在的推理能力，而非仅仅优化了最终的图像输出，研究团队还对模型核心的 “思考过程”—— 即 “生成思维链”（Generation Chain-of-Thought）的质量本身进行了深入分析。为此，团队采用 GPT-4o 作为第三方评估者，对 GoT-R1-7B 自主探索生成的推理链与仅经 GoT 监督微调的基线模型（Janus-Pro-7B-GoT）生成的推理链进行了一对一的比较。

评估结果具有压倒性的说服力。GPT-4o 在所有评估类别中均明确地偏好由 GoT-R1 生成的推理链。例如，在对空间关系理解要求极高的 “Spatial” 类别提示中，GoT-R1 获得了 84 票，而基线模型仅获得 16 票。这一结果强有力地证明，GoT-R1 框架通过强化学习，不仅提升了最终图像的生成质量，更从根本上优化了模型自身的推理能力，使其能够生成更准确、更忠实于用户意图、逻辑更清晰的 “思维链”，而这正是其在复杂组合任务中取得成功的关键所在。

GPT-4o对强化学习前后推理链的一对一比较结果

#何恺明新身份

谷歌DeepMind杰出科学家

恭喜谷歌。

刚刚，有网友爆料，自己在公司收到了「欢迎何恺明加入」的邮件，何恺明疑似加入谷歌。

在搜索何恺明个人主页后，我们可以确认，他确实加入了谷歌，不过是以兼职的形式，职位是谷歌 DeepMind 杰出科学家 (Distinguished Scientist)。

个人主页：https://people.csail.mit.edu/kaiming/

关于何恺明在谷歌的具体研究方向，目前还搜不到详细信息。

不过，我们可以根据他最近发表的研究推测一下。前段时间，他所在的团队发布了一篇题为「Mean Flows for One-step Generative Modeling」的论文（参见《何恺明团队又发新作： MeanFlow 单步图像生成 SOTA，提升达 50%》）。在最近的 CVPR workshop 上，他也重点介绍了这一论文所代表的方向。

在分享中，他指出，在 AlexNet 之前，逐层训练更为流行，如深度信念网络（DBN）和去噪自编码器（DAE）。但 AlexNet 之后，识别模型普遍实现了端到端训练，大大简化了模型设计和训练的复杂性。不过，有趣的是，今天的生成模型在概念上更像是逐层训练：Diffusion 模型通过 T 个去噪步骤逐步生成，自回归模型通过 T 个 token 逐步生成。这让我们不禁思考：历史能否在生成模型领域重演？即，生成建模有没有可能也走向端到端？

何恺明的个人主页上传了这次演讲的 PPT（参见《何恺明 CVPR 最新讲座 PPT 上线：走向端到端生成建模》），感兴趣的可以去看一下。

从高考状元到被引量超 71 万的 AI 学者

2003 年，何恺明以标准分 900 分获得广东省高考总分第一，被清华大学物理系基础科学班录取。在清华物理系基础科学班毕业后，他进入香港中文大学多媒体实验室攻读博士学位，师从汤晓鸥。何恺明曾于 2007 年进入微软亚洲研究院视觉计算组实习，实习导师为孙剑博士。

2011 年博士毕业后，何恺明加入微软亚洲研究院工作任研究员。2016 年，何恺明加入 Facebook 人工智能实验室，任研究科学家。2024 年，何恺明加入 MIT，成为该校一名副教授。

何恺明的研究曾数次得奖。2009 年，当时博士研究生在读的何恺明参与的论文《基于暗原色的单一图像去雾技术》拿到了国际计算机视觉顶会 CVPR 的最佳论文奖。

2016 年，何恺明凭借 ResNet 再获 CVPR 最佳论文奖，此外，他还有一篇论文进入了 CVPR 2021 最佳论文的候选。何恺明还因为 Mask R-CNN 获得过 ICCV 2017 的最佳论文（Marr Prize），同时也参与了当年最佳学生论文的研究。

根据 Google Scholar 的统计，截至今天，何恺明的研究引用次数超过 71 万次。

此外，加入 MIT 后，何恺明开设的课程广受学生欢迎，可参考：

「教授何恺明在 MIT 的第一堂课」

「教授何恺明在 MIT 的第二门课 ——《深度生成模型》，讲座 PPT 陆续已出」

那些年，恺明发表过的「神作」

说起恺明大神的作品，最有名的就是 ResNet 了。这篇论文发表于 2016 年，迄今引用已经超过 28 万多。根据《自然》杂志的一篇文章，这是二十一世纪被引用次数最多的论文。

《Deep Residual Learning for Image Recognition》在 2016 年拿下了计算机视觉顶级会议 CVPR 的最佳论文奖。

同样是大神级别的学者李沐曾经说过，假设你在使用卷积神经网络，有一半的可能性就是在使用 ResNet 或它的变种。

何恺明有关残差网络（ResNet）的论文解决了深度网络的梯度传递问题。这篇论文是 2019 年、2020 年和 2021 年 Google Scholar Metrics 中所有研究领域被引用次数最多的论文，并建立了现代深度学习模型的基本组成部分（例如在 Transformers、AlphaGo Zero、AlphaFold 中））。

如今大模型都在使用的 transformer 的编码器和解码器，里面都有源自 ResNet 的残差链接。

2021 年 11 月，何恺明以一作身份发表论文《Masked Autoencoders Are Scalable Vision Learners》，提出了一种泛化性能良好的计算机视觉识别模型，同样是刚刚发表就成为了计算机视觉圈的热门话题。

一个初入 AI 领域的新人，在探索的过程中看到很多重要研究主要作者都是何恺明，经常会不由得感到惊讶。何恺明虽然长期身处业界，但科研态度一直被视为标杆 —— 他每年只产出少量一作文章，但一定会是重量级的，几乎没有例外。

我们也经常赞叹于何恺明工作的风格：即使是具有开创性的论文，其内容经常也是简明易读的，他会使用最直观的方式解释自己「简单」的想法，不使用 trick，也没有不必要的证明。这或许也将成为他在教学领域独特的优势。

最后，恭喜谷歌，也期待大神何恺明在谷歌可以做出更多开创性工作。

#ScienceBoard

首个面向科学任务、真实交互、自动评估的多模态智能体评测环境，ScienceBoard来了

第一作者孙秋实是香港大学计算与数据科学学院博士生，硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence，在 NLP 和 ML 顶会 ACL，EMNLP，ICLR，COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智能体研究成果，被广泛应用于学术界与产业实践中。

用于辅助科学研究的大模型智能体，正在悄然发生变化

1 背景与动机

过去几年，随着 LLMs 和 VLMs 的飞速进步，我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键场域，基于这些强大模型的智能体正悄然成为科研工作流的 “新型合作者”。

在早期，AI 在科学中的角色往往是 “分析器”—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体（Computer-Using Agents，也称 CUA）的出现，这一角色正在发生根本性转变。相比于传统的语言模型助手，这类智能体能够像人类一样操作计算机，通过图形界面点击、拖拽、输入命令，或是编写程序完成计算任务，完成对真实科研软件的自动化控制。这意味着，它们不再只是回答问题，而是在主动与你一起完成科学任务，成为具备 “执行能力” 的 AI 合作者。

1-1 从语言理解走向科研执行：全新的挑战

在复杂的科研场景中，软件工具的多样性、任务流程的长周期、跨模态信息的交错，令 “用 AI 真正完成一项科研任务” 远比解答一个科学问题要困难得多。例如，模拟蛋白质结构需要调用生物建模软件，查看星体轨迹要熟练操作天文模拟器，甚至还需要自动将结果整理进 LaTeX 文档。实现这样的能力，需要智能体具备：

软件操作能力：能够使用图形界面（GUI）与命令行（CLI）控制复杂科学工具；

领域理解能力：理解任务背后的科学概念与背景知识；

跨模态感知与规划：在图形界面、终端指令、科学数据之间进行有效推理和行动。

然而，现有的多模态智能体系统大多在网页、电商、编程等通用任务上取得了一定进展，在科学领域却还在蹒跚学步。一个很重要的原因在于：缺乏一个真实、系统化的科研环境与评估基准，来推动 agent 从 “会说会写会敲代码” 走向 “会做”。

1-2 科研任务中的空白：环境与评测的双重缺失

尽管社区已提出多项 CUA 智能体评测（如 WebArena、OSWorld 等），但这些工作大多集中在日常场景和通用软件上，其复杂性远未触及真实科研工作。而以 ScienceQA 和 SciCode 为代表的科学评测人任务，其任务方式依然停留在 QA 和静态的代码编写上。在真实的科学探索过程中，软件工具往往具有非标准 I/O 流、复杂界面逻辑、需要先配置再执行、多步操作才能完成目标 —— 这对智能体提出了前所未有的挑战。因此，我们需要（1）一个可靠的环境让 Agent 可以进行自主探索以及（2）一个多模态多领域的评测基准，来了解科学任务的自动化可以被完成到何种程度

在这样的背景下，我们提出了 ScienceBoard：首个面向科学任务、真实交互、自动评估的多模态智能体评测环境，目标是从根本上推动 “会自动完成科学工作流的 AI” 的研究进展。

论文题目：ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
项目地址：https://qiushisun.github.io/ScienceBoard-Home/
研究机构：香港大学，上海人工智能实验室，复旦大学，北京大学，耶鲁大学

2 ScienceBoard 基建：科研任务的可交互操作环境

2-1 多领域科研软件集成

ScienceBoard 基于 Ubuntu 虚拟机搭建，内置了多个开源科研软件，并对其进行了系统性的重构和改造，确保每个任务都能通过 CLI / GUI 双通道进行交互。整个系统具备以下特点：

多领域科研软件集成：作为一个可扩展的环境，ScienceBoard 默认集成了 6 个科学领域的软件，包括生物化学，天文模拟，地理信息系统等。
双模态操作接口：每个软件均支持 GUI 和 CLI 控制，支持屏幕截图（Screenshots）、可访问性树（a11ytree）和 Set-of-Marks 等多模态输入，允许 agent 灵活选择交互方式。
自动初始化机制：每个工作场景都配备初始化脚本、配置文件、辅助数据，确保 agent 可以从相同起点开始实验，保证评测可复现性。
可靠的自动评估机制：作者们编写了一整套可扩展的任务评估函数，支持数值匹配、范围区间、状态对比等方式，对复杂科学操作实现执行级评估（execution-based evaluation）。

2-2 动作空间

为了让 agent 能在不同任务中使用统一接口与动作表示，ScienceBoard 在先前 CUA/Coding Agents 工作的基础上进行了扩展，为 Agents 定义了一个通用动作空间，涵盖以下几类操作：

GUI 操作动作：如 CLICK [x, y]、SCROLL [Δy]、TYPE [“text”] 等模拟人类操作
CLI 命令执行：在终端 / 软件内部输入代码指令并获取反馈
其它类型调用： ocall_api：访问外部 API 拓展 agent 能力oanswer [“...”]：用于任务型 QA 作答
流程控制动作：如 DONE, FAIL 等用于表明交互终止这样的设计使得通过 LLM/VLM 构建的不同 agent 在 ScienceBoard 环境中都能通过结构化 API 实现通用交互能力，真正具备 “跨软件、跨模态” 的通用执行接口。

3 ScienceBoard 评测集：高质量科研任务数据集

基于上述的多模态科学探索环境基建，ScienceBoard 构建了一个系统化、具挑战性的科研任务集合，作为评估 AI 智能体科学能力的标准基准。该基准不仅覆盖多种科研软件，还充分考虑任务多样性、复杂度和可执行性，目标是推动智能体从 “看得懂” 走向 “做得对”。

3-1 科学探索问题的构建

要评估一个智能体是否真正具备完成科学任务的能力，关键不仅在于环境，更在于任务本身是否足够真实、足够复杂、足够可衡量。为此，ScienceBoard 采用了人工设计 + 程序验证的混合标注流程：由学习过相关领域知识的人员基于真实软件手册构思任务目标，通过多轮交叉验证确保指令清晰、操作合理，再配套自动初始化脚本与程序化评估函数，最终构成一个高度标准化、可复现、可自动评估的科研任务集合。

3-2 多维评测基准

ScienceBoard 的当前版本共收录 169 个真实科研任务，横跨 6 个领域（及其对应配套的软件），任务类型涵盖：基础软件与环境设置，科学模拟与计算，图形绘制与空间可视化，数据查询与结果解释，科研文档撰写与整合，跨软件复合工作流等等

科学领域	示例任务
生物建模(ChimeraX)	调用 AlphaFold 模型预测蛋白质结构
天文模拟(Celestia)	调整 Julian 日期并展示行星轨道
数学计算(KAlgebra)	绘制 Bernoulli 曲线并分析其极限点
地理建模(GrassGIS)	叠加地形图层并计算边界区域面积
定理证明(Lean 4)	使用归纳法构建形式化证明
科研写作(TeXstudio)	撰写实验报告摘要并插入生成图表

为系统性考察智能体的不同层级能力，任务被划分为四类难度：

Easy（~54%）：执行单步配置、简单计算和编程、操作界面
Medium（~28%）：涉及多步指令、逻辑推理或跨模态状态跟踪与记忆
Hard（~17%）：需完成 Long-horizon 规划、精细的 GUI 定位、多程序协作等
Open Problems：当前 SOTA 模型仍不可能完成的开放探索挑战性任务

4 实验与评估

我们在 ScienceBoard 评测基准上评估了当前代表性的（1）商业模型（2）开源模型（3）GUI 基座模型所构建的智能体的表现，结果揭示：即便是当今最强的多模态大模型，在真实科研工作流中也远未成熟。

4-1 主要实验

在整体任务成功率上：

1.GPT-4o 和 Claude 3.5 等商业大模型虽领先于开源模型，但平均成功率也仅为 15% 左右；

2. 开源的 InternVL3 和 Qwen2.5-VL 在部分任务上有超越商业模型的表现，但跨领域表现仍不稳定；

专门设计的 GUI Action Models 如 OS-ATLAS、UGround 等，虽然对接系统更轻量，却在长任务、跨模态任务上明显受限。

可以从实验中看出：完成科学工作流的门槛远高于 Web browsing 任务或移动 / 桌面端应用的交互。模型需要在视觉、结构化数据、复杂指令之间基于领域知识多轮推理、长程规划。

更重要的是，我们在实验中发现：许多失败并非源于模型知识不足，而是执行策略不当。例如，模型可能正确理解了 “导出蛋白质结构图”，却因点击顺序错误而未能完成任务。

4-2 拆解规划与动作

进一步的分析实验还揭示了一个耐人寻味的趋势：许多失败的智能体其实 “知道要做什么”，却 “做不好”。以 GPT-4o 为代表的模型，在任务规划上展现了强大的理解能力，但在面对真实界面时，常因点击不准（e.g., 无法点中正确的星球）、路径偏差而执行失败。这表明：当前模型在 “想清楚” 与 “做准确” 之间仍存在断层。

为进一步验证这一现象，我们尝试将规划（Planning）与执行（Action）解耦，构建模块化智能体系统：由 GPT-4o 负责生成高阶计划，再由各类开源 VLM 或 GUI Action Model 执行具体操作。

实验结果显示：这种模块化设计显著提升了成功率，尤其在界面复杂、操作链条长的科研软件任务中，能够更稳健地完成目标。

5 展望

ScienceBoard 的实验表明，当前智能体的瓶颈不仅在操作层，更在于领域知识与通用 agent 能力的割裂。许多模型可以正确地执行点击或输入命令，但缺乏对科学任务背后知识的理解。因此，未来的关键方向在于：让智能体真正 “理解科学”。这或许包括利用 Manual 与 Tutorial 等资源进行 “任务相关学习”，或构建可根据上下文调用外部知识的系统，

另一个值得关注的方向是智能体系统。我们的实验显示，即使是简单的 “分工合作” 策略（如 GPT-4o 负责计划、其他模型负责执行）也能带来显著收益。这为未来的 “科研 AI 团队” 奠定了雏形：一个系统可能由具备强逻辑推理能力的 planner、擅长执行的 GUI 模型、掌握专业知识的领域专家模型组成。它们可按需组合，灵活适配科研生命周期中的不同阶段，从数据分析、图表生成到论文润色，真正成为 “可编排、可插拔” 的科研伙伴。

更长远地看，ScienceBoard 提出的框架也为实验室层面的智能化探索打下了基础。从虚拟科研助手，到物理实验机器人，从 Coding / QA 模型到实验助手，AI 科学家的未来，不再只是数字世界里的概念，而是正在缓慢走向现实。

6 结束语

作为首个聚焦科学探索任务的多模态智能体评测框架。ScienceBoard 提供了一个真实可交互的科研环境，精心设计了具有代表性的科研任务，并配套程序化评估机制，系统性评估现有模型在科学任务上的表现。实验发现，即便是当前最强的通用模型，在复杂科研工作流中的成功率仍显著低于人类，尽管智能体自动化科学探索仍是一个长期目标，但本工作提供了一个可复现、可衡量、可扩展的起点，也为通向全自动化 AI 科学家之路点亮了第一盏灯。

#LaVi

15基准全SOTA！中科院：仅需6%算力就可加速大模型3倍~

论文标题：LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation

论文作者：Tongtian Yue等

论文链接：https://arxiv.org/pdf/2506.16691

研究动机：破解LVLM的集成困局

1.1 研究背景与现有技术局限

近年来，大型语言模型（LLMs）如GPT、LLaMA的突破推动了大型视觉语言模型（LVLMs）的发展，像LLaVA、BLIP等模型在视觉理解和认知推理任务中展现出强大能力。但当前LVLMs在视觉与语言的高效集成方面存在根本性瓶颈，主要体现在两种主流方法的缺陷上：

架构注入法：早期的视觉语言集成方法，如 Flamingo 模型采用的架构注入策略，通过在语言模型内部插入跨注意力层、前馈网络等额外模块，强制视觉特征与语言处理路径交互。这种方法如同在精密钟表内部添加非原厂零件，虽然能实现视觉信息的显式融合，却破坏了语言模型原有的架构连贯性与处理流程。其直接后果是预训练积累的语言理解能力受损，模型丢失了编码在语言模型中的丰富语义先验知识，就像一个精通多门语言的专家因脑部手术丧失了部分记忆。
上下文注入法：当前主流的上下文注入方法，如 LLaVA 系列采用的技术路线，将视觉特征转化为Token序列后直接拼接到文本输入中。这种方式看似保留了语言模型的架构完整性，却引发了严重的效率危机。以 CLIP 模型处理单张 336像素图像为例，需生成 576 个视觉Token，而自注意力机制的二次复杂度特性（计算量随序列长度平方增长）导致模型在处理高分辨率图像或长视频时，计算量呈指数级飙升。就如同向只能处理小流量数据的管道中强行注入洪水，最终导致推理延迟剧增，无法满足实时应用需求。

1.2 理想集成策略的两大原则

通过分析现有方法，作者提出高效集成需满足的核心原则：

最小结构干扰：确保预训练语言知识的保留，支持连贯的文本生成和基于视觉的理解推理。这就好比对经典发动机进行升级时，需确保不改变其核心机械结构，以维持原有的动力性能。只有这样，模型才能在获得视觉能力的同时，保持连贯的文本生成与语言推理能力，避免 "捡了芝麻丢了西瓜" 的尴尬局面。
计算可扩展性：避免处理大量视觉Token时的二次复杂度问题，实现高效的视觉信息整合。传统方法中，视觉Token数量的增加会导致计算复杂度呈二次增长，如同老旧计算机无法处理高清视频。而理想的策略应具备线性或近似线性的计算复杂度，使模型能高效处理高分辨率图像与长视频序列，为自动驾驶、实时视频分析等对延迟敏感的场景提供技术可能。

LaVi核心贡献

图1. 训练过程中使用和不使用我们的Ground-V数据集的LISA和PSALM模型的性能对比。纳入Ground-V始终能提升这两种模型在各基准上的性能，在六个基准上，就gIoU指标而言，LISA平均提升4.4%，PSALM平均提升7.9%。

提出全新集成范式

本文突破传统"外部拼接"或"结构修改"的思维定式，首次提出"内部特征调制注入（FMI）"的创新范式。这一思路摒弃了添加额外模块或扩展输入序列的做法，转而利用语言模型中基础组件的特性，从内部实现视觉信息对语言表征的动态调制，如同为模型安装了"智能调节系统"，在不改变核心架构的前提下实现多模态融合。

设计轻量级模块ViLN

基于层归一化（LN）机制，研究者开发出"视觉注入层归一化（ViLN）"模块。该模块如同为LN装上"视觉传感器"，通过视觉条件化的参数增量动态调整语言特征，既避免了传统方法中长序列带来的计算爆炸问题，又能细粒度地对齐视觉与语言表征。

构建高效模型LaVi

基于上述创新，研究者构建了LaVi模型，在15个图像与视频基准测试中实现"效率-性能"双突破：不仅达到当前最优性能（state-of-the-art），还在计算效率上大幅超越同类模型。例如，LaVi-7B在参数规模相同的情况下，FLOPs消耗比LLaVA-OV-7B减少94%，却能保持基准准确率持平甚至更高，为自动驾驶、实时视频分析等对延迟敏感的场景提供了切实可行的解决方案。

LaVi的方法论：从原理到架构设计

图2：大型视觉语言模型（LVLMs）中各种视觉集成技术的比较。（a）架构注入：在大型语言模型（LLM）中插入额外层以进行跨模态交互；（b）上下文注入：将视觉Token连接到文本序列之前作为初始上下文；（c）特征调制注入（我们的方法）：内部隐藏状态通过视觉引导的仿射变换进行调制。

1. 视觉-语言集成策略的对比与选择

现有集成方法的形式化分析

架构注入：如公式所示，通过插入跨模态交互模块Φₗ，在LLM的每一层处理中显式融合视觉特征v和文本隐藏状态Hₗ：

这种方法破坏了原LLM的前向传播流程，导致语言能力退化。
上下文注入：将视觉Tokenv与文本序列t拼接作为初始输入，依赖LLM的自注意力处理跨模态交互：

但自注意力的二次复杂度（O(L²)，L为序列长度）使视觉Token激增时计算量爆炸。

特征调制注入（FMI）的优势

FMI的核心是利用LN模块的仿射变换特性，将视觉信息转化为LN参数的增量。标准LN的计算式为：

其中α和β是可学习的仿射参数。FMI在此基础上引入视觉条件化增量Δαᵥ和Δβᵥ，得到ViLN：

这种设计有两大优势：

轻量级集成：无需添加新层或扩展序列，仅通过参数增量调制现有隐藏状态。
语言先验保留：初始时Δαᵥ和Δβᵥ为零，保证训练初期模型行为与原LLM一致，避免语言能力损失。

2. LaVi的整体架构与关键模块

图3：整体模型架构示意图。对于配备ViLN的LLM模块，视觉和文本特征被输入到条件模块中以获取Token级的视觉条件。这些条件通过轻量级MLP转换为缩放和平移参数，用于调制LLM的内部语言特征。

架构概览

LaVi的核心是将LLM中的部分LN层替换为ViLN模块，并通过条件模块生成视觉条件。整体流程如下：

视觉特征v经编码器提取后，与文本Tokent一同输入条件模块。
条件模块生成每个文本Token对应的视觉条件，通过轻量级MLP映射为Δαᵥ和Δβᵥ。
ViLN利用这些增量调整LN的仿射参数，实现视觉对语言表征的动态调制。

条件模块的三种实现方式

条件模块需为每个文本Token生成专属的视觉条件，我们设计了三种灵活实现：

MLP-based Conditioning：受MLP-Mixer启发，通过Token混合MLP和通道混合MLP处理文本-视觉拼接序列，提取Token级视觉信息。
Conv-based Conditioning：将拼接序列视为1D信号，通过深度卷积和点卷积混合空间与通道信息，适合捕捉局部视觉关联。
Attention-based Conditioning：以文本Token为查询，视觉Token为键和值，通过交叉注意力直接聚合相关视觉上下文，默认采用此方法以平衡效率与性能。

可扩展视觉输入处理

针对高分辨率图像和视频，LaVi采用策略：

高分辨率图像：分块编码，将图像划分为非重叠块，各块独立编码后拼接Token。
视频处理：均匀采样k帧，每帧编码后经2×2自适应池化，添加时间位置编码以捕捉时序动态。

3. FMI的数学本质与优势分析

FMI通过乘法（Δαᵥ）和加法（Δβᵥ）操作调制隐藏状态，本质是在特征空间中对语言表征进行视觉引导的自适应变换。与现有方法相比：

计算复杂度：不增加自注意力序列长度，计算量与视觉Token数量解耦，避免O(L²)问题。
表征对齐：直接在LLM内部特征层实现视觉-语言对齐，比架构注入更贴近语言处理核心路径。
训练稳定性：零初始化的增量映射确保模型可从纯语言能力平滑过渡到多模态能力。

实验

一、实验设置与模型训练细节

模型配置：

为验证LaVi的有效性，研究团队训练了三种模型变体：基础图像理解模型LaVi-Image、支持高分辨率图像的LaVi-Image(HD)，以及同时处理图像和视频的全能模型LaVi。
视觉编码器与LLM骨干的搭配参考LLaVA系列：LaVi-Image采用CLIP ViT-L/336px与Vicuna-7B；LaVi与LaVi-Image(HD)则使用SigLIP ViT-SO400M和Qwen2-7B，确保对比实验的公平性。

训练流程：

采用两阶段训练范式：先预训练条件模块，再进行指令微调。
数据集方面，预训练使用CC12M中的800万高分辨率图像，微调分别采用LLaVA-665K、LLaVA-760K等指令数据集。

评估基准：

覆盖9个图像理解任务（如VQA-v2、GQA、ScienceQA等）和6个视频理解任务（包括EgoSchema、MVBench、Video-ChatGPT等）。
性能指标同时关注计算效率（FLOPs、延迟）和任务准确率。

二、图像理解任务实验结果

表1：9个基于图像的基准测试的性能，包括VQA-v2、GQA、VisWiz、ScienceQA、TextVQA、POPE、MME、MMBench和(SEED ^{I})。对于(MME^{P})，分数以百分比表示。除了效率和准确性，我们还报告了每个基线的LLM主干。

效率与性能平衡：

与同参数规模的LLaVA系列模型相比，LaVi的FLOPs消耗降低14-19倍：LaVi-Image相比LLaVA-v1.5减少92.9%的FLOPs，推理延迟从254.4ms降至110.8ms。
尽管计算量大幅减少，LaVi在图像基准上的平均准确率仍实现1.0%~1.4%的提升，如LaVi-Image在VQA-v2上达到79.6%，超越LLaVA-v1.5的78.5%。

高分辨率扩展性：

LaVi-Image(HD)处理高分辨率图像时，FLOPs仅为LLaVA-v1.6的5.2%，但平均准确率达到71.5%，接近LLaVA-v1.6的71.0%。
这表明LaVi通过动态分块策略，有效解决了高分辨率图像带来的计算瓶颈问题。

三、视频理解任务实验结果

表2：6个基于视频的基准测试的性能，包括EgoSchema、MLVU、VideoMME、MVBench、CinePile和Video-ChatGPT。除了计算效率和准确性指标外，我们还报告了每个视频的采样帧数。

长视频处理优势：

在32帧视频输入下，LaVi的FLOPs仅为LLaVA-OV的14.4%（18.6T vs 129.6T），延迟从1215.6ms降至401.5ms，同时在VideoMME等任务上准确率提升3-5个百分点。
当处理128帧长视频时，LaVi相比Video-LLaVA节省92.0%的FLOPs和61.1%的内存，展现出对长时间序列的卓越可扩展性。

多帧采样鲁棒性：

即使仅采样8帧，LaVi在EgoSchema任务上的准确率（51.8%）也超越了Video-LLaVA在8帧下的表现（38.4%），证明其能高效利用有限视觉信息完成推理。

四、消融实验与机制分析

表4：在相同数据和主干设置下集成技术的比较。我们呈现了总训练时长（时间）、推理期间的浮点运算次数（FLOPs），以及三个纯语言基准和四个视觉-语言任务的准确性结果。

集成策略对比：

通过与架构注入（交叉注意力）、上下文注入（拼接视觉Token）对比，发现LaVi的特征调制注入（FMI）在语言保留能力上优势显著：在MMLU语言基准上，FMI的性能（59.5%）比上下文注入（57.4%）高2.1个百分点，且训练时间减少70%。
可视化结果显示，LaVi的隐藏状态与原始LLM的余弦距离最小，证明其对语言先验的破坏最小。

表3：调制不同子层的效果。
将视觉信息注入到两个子层时可获得最佳结果。

表5：调制参数的效果。每个参数通过相应的操作增强视觉信息集成。

表6：调制频率的影响。以中等频率应用ViLN可获得最佳平均性能。

表7：调制位置的影响。将ViLN均匀分布在各层可实现更有效的多模态集成。

调制机制优化：

子层影响：同时调制自注意力和前馈子层时性能最优，其中自注意力子层的调制对跨模态对齐影响更大（单独调制自注意力时平均准确率达65.0%）。
调制频率与位置：选择25%的层进行均匀调制效果最佳，过度调制（100%层）反而导致性能下降1.5%。
参数重要性：缩放参数Δα和偏移参数Δβ对性能提升贡献相当，同时使用时平均准确率比单独使用高1.5%-2.0%。

五、可视化与深层分析

语言能力保留验证：

通过对比隐藏状态与原始LLM的特征漂移（图5），LaVi的余弦距离始终低于架构注入和上下文注入方法，证明其"最小结构干扰"设计的有效性。

调制影响分布：

早期LLM层的调制影响更强（图6），浅层特征的余弦距离变化达0.5，而深层趋于稳定，表明模型在早期层完成跨模态对齐，深层进行语义整合。
语义丰富的词汇（名词、动词）受到的调制更强（图7），如名词的余弦距离比标点符号高0.2，符合"视觉信息优先对齐关键语义"的直觉。

序列长度扩展性：

随着视频帧数增加，LaVi的FLOPs增长呈近似线性（图8），而基线模型呈二次增长，当处理128帧时，LaVi的计算量仅为Video-LLaVA的8.0%。

总结

在这项工作中，作者为LVLM提出了一种新颖的内部特征调制注入范式，通过避免过度的上下文扩展来确保最小的结构干扰和卓越的计算可扩展性。基于此范式，开发了LaVi，一种高效的LVLM，利用视觉注入层归一化（ViLN）实现精确的视觉-语言对齐，同时大幅降低计算成本。与LLaVA风格的模型相比，LaVi的浮点运算量（FLOP）减少了94.0%，运行速度快3.1倍，延迟显著降低，使其成为视觉-语言集成的高效替代方案。

#OpenAI苏黎世办公室被Meta一锅端

刚刚，三名ViT作者被挖走

恭喜 Meta。

刚刚，华尔街日报发布了一份独家报道，称去年底刚刚组建的 OpenAI 苏黎世办公室基本被 Meta 一锅端走了。

具体来说，Meta CEO 马克・扎克伯格挖走了 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai（翟晓华）三位研究者。

这三人一直以来都是密切的合作伙伴，共同参与了 ViT 等重要研究。去年 12 月，他们离开了谷歌 DeepMind 的苏黎世办公室，加入了 OpenAI 并成立了 OpenAI 的苏黎世办公室。相关详情可参阅我们之前的报道《刚刚，三名谷歌 Vision Transformer 作者官宣加入 OpenAI》。

华尔街日报称：「OpenAI 的一位发言人证实，这三名研究人员已经离职。」

在最新模型发布失败后，扎克伯格一直在大力招募研究者，期望夺回该公司在 AI 领域的优势。也因此，Meta 最近可以说是敞开了钱包疯狂挖人。

据报道，马克・扎克伯格最近每天都在向 AI 领域最顶尖的人才发送电子邮件和 WhatsApp 消息。他亲自联系了数百名研究人员、科学家、基础设施工程师、产品明星和企业家，试图让他们加入他正在组建的超级智能实验室（Superintelligence lab）。当然，他的开价也相当诱人，甚至「向一些人提供了价值 1 亿美元的优厚待遇。」

一些收到消息的人非常惊讶，甚至不敢相信这是扎克伯格发来的。其中一人甚至认为这是个恶作剧，好几天都没有回复。

前段时间，Meta 还向 AI 初创公司 Scale 投资了 140 亿美元，并聘请其 CEO Alexandr Wang 领导其新组建的超级智能团队，参阅报道《刚刚，Scale AI CEO Alexandr Wang 正式官宣：Meta 重金投资并挖走了我》。

扎克伯格还曾试图招募 OpenAI 联合创始人 Ilya Sutskever（创立了 Safe Superintelligence Inc.）和 John Schulman，但都未能成功。

OpenAI CEO 山姆・奥特曼在周二的一次活动上表示，他并不担心扎克伯格的闪电战：「这就像是，扎克伯格正在做一些新的疯狂的事情。那又怎么样呢？」上周，奥特曼表示，他手下最优秀的人才并没有离开去 Meta。虽然这样说，但 OpenAI 其实也在进行反制，为其研究人员提供更多资金和发展空间。

下面就来简单了解下这篇新闻的三位主角：

Xiaohua Zhai（翟晓华）

个人主页：https://sites.google.com/view/xzhai

根据领英简历，翟晓华在 2025 年加入 OpenAI。此前，他是 Google DeepMind（苏黎世）的资深研究科学家和管理者。在那里，他领导着苏黎世的一个多模态研究团队，其研究重心是多模态数据、开放权重模型和包容性。

他于 2014 年在北京大学取得了计算机科学博士学位。之后曾在谷歌从事了三年软件工程师的工作。2017 年 12 月，他加入 DeepMind 担任研究科学家，并一直在此工作了 7 年。离职后，加入 OpenAI。

目前，翟晓华在 Google Scholar 上的被引量已经达到了 8 万多，其中大部分被引量来自他们三人共同参与的 ViT 论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。

Lucas Beyer

个人主页：https://lucasb.eyer.be/

他在 2018 年于德国亚琛工业大学完成了自己的高等学业，期间曾在谷歌以实习生身份从事过研究工作，也在 Kindred.ai 担任过 AI 工程师，在德国亚琛工业大学担任过研究助理。

毕业后，他正式加入谷歌，先后在谷歌大脑与 DeepMind 从事研究工作。离开谷歌后，他于 2024 年加入 OpenAI。

目前，Lucas Beyer 在 Google Scholar 上的被引量已经达到了 8 万多。

Alexander Kolesnikov

个人主页：https://kolesnikov.ch/

Alexander Kolesnikov 于 2012 年硕士毕业于莫斯科国立大学，之后在奥地利科学技术研究所取得了机器学习与计算机视觉博士学位。类似地，2018 年博士毕业后，他也先后在谷歌大脑和 DeepMind 从事研究工作。之后加入 OpenAI 担任技术人员，致力于多模态人工智能研究。

目前，Alexander Kolesnikov 在 Google Scholar 上的被引量已经达到了 9 万多。

参考链接

https://www.wsj.com/tech/ai/meta-poaches-three-openai-researchers-eb55eea9

https://www.wsj.com/tech/ai/meta-ai-recruiting-mark-zuckerberg-5c231f75

#Gemini CLI

免费、开源！谷歌Gemini CLI彻底火了，平替Claude Code

终端玩家最爱。

一夜之间，谷歌 Gemini CLI 彻底火了。

这是一款开源的、能够运行在终端的 AI 智能体，用户以自然语言命令的形式就可以直接在终端上执行。它还具备谷歌 Gemini Pro 2.5 的强大功能 —— 而且基本免费。

Gemini CLI 最擅长编程，也可以用作聊天、内容创作、Deep Research 等用途。项目星标飞速上涨。

项目地址：https://github.com/google-gemini/gemini-cli/

此外，谷歌还将 Gemini CLI 与 Google 的 AI 编码助手 Gemini Code Assist 集成，以便所有开发者（包括免费版、标准版和企业版 Code Assist 套餐）都能在 VS Code 和 Gemini CLI 中体验提示符驱动的编码体验。

想要开启 Gemini CLI，只需使用 Google 个人帐户登录即可获得免费的 Gemini Code Assist 许可证。

该免费许可不仅支持 Gemini 2.5 Pro 模型，更开放了惊人的 100 万 token 上下文窗口，也就是说你可以把一整个代码库扔给它当背景资料。

使用限额也达到了业界最高的免费额度：免费版本每分钟可发送 60 次模型请求，每日上限 1000 次请求。

其实，Gemini CLI 并非第一个或唯一的命令行 AI 工具。OpenAI Codex 有 CLI 版本，Anthropic 也有 Claude Code 版本。然而，Google Gemini CLI 与其两个主要商业竞争对手截然不同，因为它是基于 Apache 2.0 许可证开源的。

值得一提的是，Gemini CLI 原生支持 Windows 系统，无需 WSL，这一功能让很多开发者吃惊。

很多网友已经开始上手使用了，并表示这可能是 Claude Code 遇到的最厉害的竞争对手。况且后者还收费。

现在 Gemini CLI 预览版已经开启，从代码理解、文件操作到命令执行与动态故障排查，只需使用自然语言即可编写代码、调试问题并优化工作流程。

Gemini CLI 之所以如此强大，主要源于这些内置工具：

联网搜索增强：通过 Google 搜索获取网页内容，为模型提供实时外部信息；

协议扩展支持：内置 MCP 及扩展套件，持续拓展功能边界；

个性化定制：自由调整提示词与指令，让 Gemini 精准适配用户工作需求；

自动化集成：通过在脚本中非交互地调用 Gemini CLI 来自动执行任务并与现有工作流程集成。

，时长00:30

Gemini CLI 可用于多种任务，包括使用 Veo 和 Imagen 制作一个简短的视频，展示一只猫在澳大利亚的冒险故事

此外，Gemini CLI 与 Gemini Code Assist 共享同一项技术。在 VS Code 中，用户可以在聊天窗口中使用智能体模式输入任何提示，Code Assist 就会为你编写测试、修复错误、构建功能，甚至迁移代码。

根据你的提示，Code Assist 的智能体会制定一个多步骤的计划，自动从失败的实现路径中恢复，并提出你可能从未想到的解决方案。

，时长01:13

大家都用了吗？欢迎评论区留言。

#RoboTransfer

xx世界模型新突破，地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来，随着人工智能从感知智能向决策智能演进，世界模型（World Models）逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态，从而实现更高效的规划与决策。

与此同时，xx数据也迎来了爆发式关注。因为目前xx算法高度依赖于大规模的真实机器人演示数据，而这些数据的采集过程往往成本高昂、耗时费力，严重限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式，但由于仿真环境与真实世界之间存在显著的视觉和动力学差异（即 sim-to-real gap），导致在仿真中训练的策略难以直接迁移到真实机器人上，从而限制了其实际应用效果。因此如何高效获取、生成和利用高质量的xx数据，已成为当前机器人学习领域的核心挑战之一。

近日，地平线、极佳科技与中国科学院自动化研究所等单位提出 RoboTransfer，基于扩散模型的视频生成框架，可以用于扩充机器人策略模型的训练数据。得益于合成数据的多样性，下游策略模型能够在新场景下取得 251% 的显著提升，大幅提升策略模型的泛化性，为xx智能的通用性与泛化性奠定了坚实的基础。

论文题目：RoboTransfer:Geometry-Consistent Video Diffusionfor Robotic Visual Policy Transfer

论文链接：https://arxiv.org/pdf/2505.23171

项目主页：https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿学习（Imitation Learning）已成为机器人操作领域的重要方法之一。通过让机器人 “模仿” 专家示教的行为，可以在复杂任务中快速构建有效的策略模型。然而，这类方法通常依赖大量高质量的真实机器人演示数据，而数据采集过程成本高、周期长，严重制约了其扩展性和泛化能力。

为了解决上述问题，本项工作提出了 RoboTransfer ，一种基于扩散模型（diffusion model）的视频生成框架，旨在实现高质量的机器人操作场景数据合成。不同于传统的仿真方法或现有生成模型，RoboTransfer 融合了多视角几何信息，并对场景中的关键组成成分（如背景、物体属性等）实现了显式控制。具体而言，RoboTransfer 通过引入跨视角特征交互机制以及全局深度图与法向图作为条件输入，确保生成视频在多个视角下的几何一致性。此外，该框架支持细粒度的编辑控制，例如更换背景、替换目标物体等，从而能够灵活地生成多样化、结构合理的视觉数据。

实验结果表明，RoboTransfer 能够生成具有高几何一致性和视觉质量的多视角视频序列。此外，使用 RoboTransfer 合成数据训练的机器人视觉策略模型，在标准测试任务中表现出显著提升的性能：在更换前景物体的场景下取得了 33.3% 的成功率相对提升，在更具挑战性的场景下（同时更换前景背景）更是达到了 251% 的显著提升。

RoboTransfer 的整体框图如下，为了在视频生成过程中保证多视角之间的一致性，RoboTransfer 引入了多视角一致性建模机制，使得生成过程能够联合不同视角的信息进行推理，从而提升生成结果的空间连贯性与视觉合理性。

此外，在控制条件的设计方面，RoboTransfer 通过将控制信号解耦为几何信息与外观（纹理）信息两个部分，实现了对生成内容的细粒度控制。具体来说，在几何控制方面，采用深度图（depth map）和表面法向图（surface normal map）等具有强结构约束的表示方式，来引导生成视频中物体的三维空间结构，确保在不同视角下生成内容的几何一致性。而在外观控制方面，模型利用参考背景图像和目标物体的参考图像作为输入条件，这些图像经过编码后能够有效保留原始场景的色彩、纹理以及上下文信息，从而在生成过程中维持物体外观的细节还原能力。

在实验部分，RoboTransfer 证明可以通过 real-to-real，以及 sim-to-real 两种方式实现数据增广，并训练下游的策略模型提升其性能。

real-to-real 数据增广基于真机采集的真实视频数据，可从中提取结构化信息作为控制条件，通过调整背景桌面与前景物体的控制参数，实现新场景数据的合成。如下图所示，左侧为真实采集的数据及其对应的结构化信息，右侧为合成结果，实验表明 RoboTransfer 能够灵活地实现背景桌布的替换。

，时长00:03

改变前景：下图所示第一行为真机采集数据，第二行为深度图，第三行为法向图，第四行为前景物体的控制条件，第五行为合成数据，第六行为背景桌布控制条件。以下实验结果表明 RoboTransfer 可以实现对前景物体外表编辑的功能，丰富生成数据的多样性，提升策略模型的训练质量。

，时长00:03

sim-to-real 数据增广RoboTransfer 不仅可以改变真机数据的前景和背景，还可以实现对仿真数据的重新渲染。利用仿真数据中的结构化信息以及真实场景的物体和背景作为控制条件，RoboTransfer 可以将仿真数据的转化为逼真的真实数据，极大地降低 sim-to-real 之间的 gap，为通用机器人的训练提供了一个新的范式。以下是两个不同的仿真场景重新渲染的实验结果，左侧是叠碗，右侧是放置杯子，其中第一行为仿真采集数据，第二行为深度图，第三行为法向图，第四行为合成数据，第五行为背景参考图。

，时长00:03

对比实验结果与其他 SOTA 方法的对比可以发现，RoboTransfer 在时序一致性以及多视角之间的一致性上都要显著优于其他方法。

，时长00:03

定量实验的实验结果如下表所示，实验表明对于生成数据的前背景增广可以显著提升策略模型在新场景下的成功率，其中对于前背景完全改变的新场景，前背景的数据增广能够让策略模型获得 251% 的性能提升。

表 1 数据增广对于策略模型在不同 setting 下的提升

总体来说，该方法构建了数据处理流程，可以生成包含几何和外观控制条件的三元组数据，以训练基于扩散模型的机器人数据合成框架 RoboTransfer。实验和评估结果显示，RoboTransfer 能够生成具有多视角一致、几何一致的数据，并且可以根据参考图像修改前景和背景纹理。生成的数据用于训练机器人操作策略，从而显著提升了策略模型的泛化能力。

#Maximal Update Parametrization最大更新参数化（μP）

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生，主要研究方向为基础模型的优化、泛化和可扩展性理论，导师为李崇轩副教授，论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员，主要研究方向为视觉生成模型。李崇轩副教授为唯一通讯作者。

近年来，diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加，diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中，如何调得较好的超参（如学习率）已经成为了一个巨大的问题，阻碍了大规模diffusion Transformers释放其全部的潜能。

为此，人大高瓴李崇轩团队和字节跳动Seed团队的研究员引入了大语言模型训练中的μP理论，并将其扩展到diffusion Transformers的训练中。μP通过调整网络不同模块的初始化和学习率，实现不同大小diffusion Transformers共享最优的超参，使得小模型上搜到的超参可以直接迁移到最终大模型上进行训练，从而极大地减小了超参搜索的耗费。

团队在DiT，PixArt和MMDiT（Stable Diffusion的基座）上进行了系统的大规模实验验证。在MMDiT的实验中，0.18B小模型上搜得的超参成功被用在18B大模型的训练中，并击败了人工专家的手调基线。其中，小模型超参搜索的计算量（FLOPs）仅是专家手调的3%左右。

团队已在近期开放在线论文，并开源代码。

论文链接：https://arxiv.org/abs/2505.15270

代码仓库：https://github.com/ML-GSAI/Scaling-Diffusion-Transformers-muP

μP的背景和问题

μP全称为最大更新参数化（Maximal Update Parametrization），是Tensor Program无穷宽网络理论系列中的里程碑之作，相关结果已被理论证明适用于标准的Transformer架构。μP的算法实现简洁，对于应用最为广泛的AdamW优化器而言，μP只需要调整隐藏层权重的学习率，和输出层权重的系数以及初始化。μP在实际中被广泛发现能够实现不同大小的标准Transformer共享最优的超参，使得小模型上搜到的超参可以直接迁移到大模型，极大地减小了超参搜索的耗费。由于μP带来了稳定的超参迁移性质，它近年来已经被成功使用在大语言模型（标准Transformer）的预训练中。

然而，diffusion Transformers和标准Transformer存在较大的差异。从架构上来看，diffusion Transformers引入了额外的模块来处理并整合文本信息，如DiT中的adaLN block。从任务目标上来看，diffusion Transformers处理的是视觉的扩散学习任务，而标准Transformer主要处理的是语言的自回归学习任务。这两点差异意味着已有的μP形式及其超参迁移律在视觉diffusion Transformers中不一定成立。针对这一问题，团队从理论和实践上进行了系统的研究。

Diffusion Transformers的μP形式

团队首先从理论上研究了主流diffusion Transformers的μP形式，包括DiT，U-ViT，PixArt-α和MMDiT。Tensor Program理论系列中的结果表明，如果网络架构能够被Tensor Program中定义的算子表示，那么现有的μP形式就能成立。基于这个理论技术，我们证明了：即使主流diffusion Transformers的结构不同于标准Transformer，它们也能够被Tensor Program表示，因此现有的μP理论和相关实践可以被无痛迁移到这些主流diffusion Transformers上。我们的证明技术也可以被迁移到其它的diffusion Transformers做类似的分析。

总之，diffusion Transformers的μP方法论可以由下图总结。我们首先基于μP理论，调节不同权重的系数、初始化和学习率。然后，我们在一系列小模型上搜索得到最优的超参。最后，我们将最优的超参直接迁移到大模型的训练。

基于μP扩展Diffusion Transformers：初探

首先，我们使用DiT网络在ImageNet数据集上系统地验证了：当网络宽度，数据批量大小和训练步数足够大时（如宽度达到144，批量大小达到256），超参便可以较为稳定地沿着不同的网络宽度，数据批量大小和训练步数进行迁移。这意味着我们能在网络宽度，数据批量大小和训练步数都更小的代理任务上搜索超参，然后迁移到最终大网络大数据的训练。

然后，为了验证μP超参迁移的有效性，我们将最优的超参（学习率2^-10）直接迁移到DiT-XL-2的训练中，我们发现，当模型训练到2.4M步时，FID-50K就已经超过了原论文7M步最终的FID-50K结果，DiT-XL-2-μP的收敛速度是原论文的2.9倍。这向我们展现了利用μP迁移超参做扩展的良好前景。

基于μP扩展Diffusion Transformers：大规模验证

我们进一步在大规模的文生图任务上验证了μP扩展diffusion Transformers的有效性。我们首先考虑了流行的开源文生图模型PixArt-α，我们在0.04B的代理模型上搜索学习率，并迁移到最终0.61B大小PixArt-α的训练。其中，小模型搜索超参的计算量总和（FLOPs）仅为一次训练的5.5%。利用搜索得到的学习率，PixArt-α-μP在训练的过程中稳定地取得了比基线更好的效果。

最后，我们考虑了SD3的基座模型MMDiT，并将验证的规模提高到了18B的量级。为了能够给社区带来更多的可信的实践经验，我们在 4个超参（学习率，梯度裁剪值，REPA loss的权重以及warmup的步数）上进行了多达80次的随机搜索，总搜索计算量（FLOPs）约是人工手调的3%。在0.18B模型上的超参搜索结果表明，我们学习率，梯度裁剪值，REPA loss都对结果有影响，其中学习率的影响仍是最为关键的。而warmup的步数则对结果影响不大。

我们将0.18B模型上搜索的超参应用在了18B模型的训练上，不论从训练loss的变化还是从人工评测的结果，MMDiT-μP都稳定地超过了人工专家手调的基线，而μP的超参搜索FLOPs仅是人工手调的3%！

经过这一系列系统的实验探索，我们证明了μP是科学扩展diffusion Transformers的有效手段，我们也相信μP会是未来基础模型扩展的必备利器。通过本工作的大量努力，我们希望让社区了解μP理论，拥抱μP实践，思考理论上最优的智能扩展范式（模型大小，数据量，推理时间）。我们也相信，放眼人工智能的长远未来，类似μP的底层理论的发展仍然是必不可少的，也必将会在未来的大规模实践中有着不可或缺的一席之地。

#夏威夷门票你抢到了吗？

录取率24%

ICCV 2025 将于 10 月 19 日至 25 日在美国夏威夷举行。刚刚，ICCV 官方向投稿者发送了今年论文接收结果的通知。

数据显示，今年大会共收到了 11239 份有效投稿，所有投稿均已进入审稿流程。程序委员会推荐录用 2699 篇论文，最终录用率为 24%。

对比前几届数据，2025 年的投稿量几乎接近 2019 年的三倍，这反映了计算机视觉领域的快速扩张和学术研究的日益活跃。

ICCV 2023 投稿 8260 篇，录用 2160 篇，录用率约为 26.15%。

ICCV 2021 投稿 6152 篇，录用 1612 篇，录用率为 26.20%。

ICCV 2019 投稿 4323 篇，录用 1075 篇，录用率为 25%。

尽管投稿数量大幅增加，ICCV 的录用率在过去几年中保持了相对稳定，基本维持在 25% - 26% 的区间内。

继 CVPR 2025 之后，ICCV 2025 会议也实施了一项旨在强化问责制与诚信的新政策。程序委员会主席团识别出了 25 名极不负责任的审稿人，并因此对与他们相关的 29 篇论文进行了直接拒稿处理。

这些被拒的论文中，有 12 篇若无此关联本应被录用，但这也引发了争议。

目前已知的被录取论文包括但不限于：

High-fidelity 3D Geometry Generation from Images via Normal Bridging（通过法线桥接从图像生成高保真三维几何）

Mind the Cost of Scaffold! Benign Clients MayEven Become Accomplices of Backdoor Attack （当心「脚手架」的代价！良性客户端也可能成为后门攻击的同谋）

UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation （UKBOB：用于可泛化三维医学图像分割的十亿级 MRI 标注掩码数据集）

FlowR: Flowing from Sparse to Dense 3D Reconstructions （FlowR：从稀疏到稠密的三维重建流）

Magic Insert: Style-Aware Drag-and-Drop （Magic Insert：感知风格的拖拽式内容植入）

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving （OD-RASE：本体驱动的自动驾驶风险评估与安全增强）

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing（UniVG：一个用于统一图像生成与编辑的通用扩散模型）

国际计算机视觉大会（ICCV）是由电气和电子工程师协会（IEEE）主办的学术会议，每两年举办一次。它与 CVPR 和 ECCV 并称为计算机视觉领域的三大顶级会议，并且与 ECCV 交替举办。

该会议通常为期四到五天。一般情况下，会议第一天会由重点领域的专家进行专题教程，随后是技术议程（与海报展示环节并行）。近年来的会议也包含了越来越多的专题研讨会和商业展览。

投稿量激增带来的挑战

自 2012 年 AlexNet 在 ImageNet 竞赛中取得突破以来，深度学习在计算机视觉、自然语言处理、语音识别等领域取得了革命性进展。

AlexNet Architecture Explained. The convolutional neural network (CNN)… | by Siddhesh Bangar | Medium

技术的快速迭代和新应用场景的不断涌现，为科研人员提供了海量的研究课题。特别是近年来，LLM、生成式 AI 等颠覆性技术的出现，进一步点燃了全球研究者的热情，催生了大量的研究论文。

AI 会议提交数量。

随着论文提交量激增，主流人工智能会议的同行评审流程正面临前所未有的挑战。单个会议的提交量已超过 10000 篇，今年 NIPS 的投稿量更可能突破 30000 篇。同时，评审质量和审稿人责任问题日益凸显。

此前已有多个会议因评审公平性问题引发争议，一篇论文对此提出了解决方案。

论文标题： Position: The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards
论文地址：https://arxiv.org/abs/2505.04966v1

该研究认为有必要将传统的单向评审系统转变为一种双向反馈循环。在该循环中，作者可以评估评审质量，而审稿人则能获得正式认证，从而建立一个能够促进可持续、高质量同行评审系统的问责框架。

当前的评审系统可以被视为三方（即作者、审稿人和系统/会议方）之间的互动，这三方共同对当前的问题负有责任。然而，作者方面的问题只能通过政策执行和检测工具来解决，而伦理问题只能依靠自我反思来纠正。

建议对同行评审系统进行修改。

因此，本文聚焦于通过两项关键机制来改革审稿人的问责制度并引入系统性奖励：

一个两阶段的双向评审系统，该系统允许作者评估评审意见，同时能最大限度地减少报复性行为。
一个系统性的审稿人奖励机制，用以激励高质量的评审工作。

作者呼吁学术界能高度关注这些问题，并支持为改进同行评审流程所必需的各项改革。

#5款大模型考「山东卷」

Gemini、豆包分别获文理第一名

今年的大模型已经「保底985、冲刺清北」了，明年还考吗？

果然，高考已经快被 AI 攻克了。

近日，5 款大模型参加了今年山东高考，按照传统的文理分科方式统计：豆包 Seed 1.6-Thinking 模型以 683 分的成绩拿下文科第一，Gemini 2.5 Pro 则凭借 655 分拔得理科头筹。

测评来自字节跳动 Seed 团队。他们集结了五款主流推理模型—— Seed 1.6-Thinking、DeepSeek-R1-0528，以及国外大模型 Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416，用 2025 年山东高考真题（主科全国 Ⅰ 卷 + 副科自主命题）进行全科闭卷测评，以高考 750 分制对 AI 的「应试能力」展开硬核比拼。

为确保评测的公平性，该团队通过 API 测试，并参考高考判卷标准。选择题和填空题由系统机判辅以人工质检、开放题由两位有联考判卷经验的重点高中老师进行匿名评估，并且后续引入了多轮质检。

测试全程未做任何 prompting engineering，所有输入均为高考原题，其中 DeepSeek R1 输入为题目文本，其余模型则是题目文本和题目截图。在总分计算上，采用 3（语数外）+3（理综 / 文综）的形式对 5 个模型进行排名。

从最终成绩单来看，这 5 家大模型的文科成绩均超 620 分，如果按照山东高考的赋分制，豆包的 683 分可以冲刺清华、北大；在理科方面，各大模型之间的分数差距则较为明显，Gemimi 和豆包已达到保底重点 985 的水准，而 Claude 4 和 o3 还不及 600 分。

去年高考全科测评中，大模型们还只能勉强踩到一本线，面对复杂的数学、物理题目时，虽然能产出答案，但思路浅显、推理链条不够严密，常常给人一种「全靠蒙」的感觉。然而短短一年过去，技术更新带来了质的飞跃，大模型展现出越来越强的逻辑推理和解决深度问题的能力。

语数英区分度较小，理科总分不及文科

在语、数、外等基础学科上，参评模型整体表现优异，均已达到顶尖考生水平，彼此间的区分度相对较小。不过，o3 模型因作文跑题导致语文单科得分偏低，拖累了其总分。

而在小副科上，虽然大模型在理科方面有了长足的进步，但仅从分数上来看仍不及文科。

接下来，我们根据该技术报告中提供的评分明细，详细解读一下各大模型的「考试」情况。

评分明细详见：https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg

语文：得作文者得天下

在此次测评中，豆包以 128 分的成绩拿下语文单科第一，Gemini 以 2 分之差位列第二，DeepSeek 和 Claude 4 则分别凭借 118 分和 117 分排在第三和第四位，而 o3 则由于作文跑题以 95 分吊车尾。

整体来看，大模型在选择题和阅读理解题上表现优异，得分率普遍较高。这类题目本质上是对语言理解、信息抽取和基本逻辑推理能力的考查，而这正是当前大模型最擅长的领域。再加上许多分析题有一定「模板化」答案，大模型可以通过学习语料中的答题模式，形成较强的「套话生成」能力，比如「表达了作者的思乡之情」。

此外，大模型还非常擅长名句默写，5 款大模型全部拿到满分。大语言模型在预训练阶段接触了海量的古诗词、课本内容、考试题库等文本数据，早已「见过」并「记住」了这些常考句子，因此能够在提示下快速准确「召回」原文。

不过在作文任务中，大模型的表现参差不齐，满分 60 分，Gemini 能拿到 52 分，豆包拿到了 48 分，o3 却只得到 20 分。

o3 的高考作文

究其原因，我们发现大模型写作常停留在观点清晰、结构完整的「合格」层面，缺乏真正深入的问题思辨和有力的逻辑推进，比如 DeepSeek 写的作文虽然符合主题，也言之有理，但华丽词藻下没有精彩点，缺少温度和共情。

格式规范方面，目前还存在一些小问题，比如豆包洋洋洒洒写了 1800 字，超出了答题卡预留的书写区域，o3 使用了不属于考试规范内的作文格式，更像是模型根据主题进行分析的过程及总结。

数学：去年还不及格，今年竟能考 140+

深度思考能力让大模型的数学成绩突飞猛进，相比去年普遍不及格的状况，今年不少大模型能考到 140 分以上的高分，比如 DeepSeek R1、豆包、Gemini 就分别以 145、141、140 的分数位列前三。

这个结果与我们之前的测评比较接近，但并不完全一致，主要是解答题过程存在差别，这也说明大模型的回答存在一定随机性。

具体来看，DeepSeek 除了在第 6 题上失分（该题全员失分）外，其余表现都挑不出毛病；豆包和 Gemini 则是在压轴大题第三问上出了错；Claude 4 和 o3 在倒数第二题丢了分，但 Claude 4 额外在两道多选题上出现漏选，导致排名垫底。

其实，让大模型们集体翻车的新一卷第 6 题并不难，主要丢分原因在于这道题目带有方框、虚线、箭头、汉字等元素混合的图像信息，模型难以准确识别，这也表明大模型在图像识别和理解上仍有提升空间。

新一卷单选第 6 题

在难度最高的压轴大题上，众多模型无法一次性完美解答，容易出现漏掉证明过程、推导不严谨的扣分情况。

英语：全员超过 140，几乎拉不开差距

大模型做起英语卷子简直是得心应手，五家大模型全部上 140 分，除了 Gemini 在一道选择题上出错外，其他主要扣分点都集中在写作上。

上图是基于官方测评表格数据翻译和优化排版的图片。

有意思的是，Gemini 在分析过程中实际上已经识别出正确答案，但在后续推理中引入了无根据的假设，忽略了与上下文的关联性，造成了最终的错选。

至于作文题，满分 15 分，五家大模型的得分可分为两档。

豆包、Gemini 和 Claude 4 是「12 分档」，它们都完整回应了所有要求，结构清晰，语言流畅准确，内容上也都很充实。其中豆包提供了具体的接力赛例子，Gemini 给出了双版本方案，Claude 4 更是提出了「为不同水平学生提供平等机会」这样有深度的观点。

o3 和 DeepSeek 为「11 分档」。o3 虽然创意不错，将栏目描述得很有游戏化特色，但使用了「him」等不严谨的代词，影响了语言的准确性。DeepSeek 的主要问题是句式单一，重复使用「would」使得文章略显乏味，同时结尾格式也未完全遵照题目要求。

政史地强得可怕，理科读图题失分较多

高考文综一向以题量大、材料多著称，哪怕是人类考生，拿到高分也不容易。

在本次 2025 年山东文综卷挑战中，表现最出色的就是豆包，以 270 分的高分遥遥领先，尤其在地理（94）和历史（92）两个学科上，双双突破 90 分大关。这可能得益于豆包大模型在处理结构化资料和逻辑推演方面的优化，例如地理题中对空间关系和图文结合的理解，历史题中对因果链条和材料主旨的把握。

o3 各科得分较为均衡，虽略逊于豆包但无明显弱项，体现出其较高的整体调优水平。Claude 4 在地理上也拿下 92 分，表现亮眼，但政治分数最低，主要失分点在于回答分析题时教材观点关联不足。Gemini 与 Claude 4 总分接近，没有短板，但也缺乏突出的强项。

相比之下，DeepSeek 的成绩并不理想，文综总分仅 225 分，其中最拖后腿的就是历史，仅为 67 分，最大的失分点是第 18 题，由于出现模型故障，没有识别出材料，12 分全丢了。

与文科相较，大模型的理科总分并不算特别耀眼，和清北线有距离，是保底 985 的水平。Gemini 以 248 分的成绩位居榜首，比第二名豆包高出 13 分，比第三名 Claude 4 则高出了整整 37 分。

测试结果

当然，这也是因为生物、化学涉及较多读图题，在测评时输入的图片比较模糊，在一定程度上限制了多模态模型的发挥，导致失分较多。

在获得更高清版本的高考试题图后，Seed 团队采用图文交织的方式，重新对生物和化学进行了推理测试，发现豆包在生化两科上的总分可再提升近 30 分，如此一来，理科总分就达到 676 分。这也说明，结合文本和图片进行全模态推理可以更大程度激发模型的潜力。

图文交织输入示例

此外，我们还发现在物理压轴题中，多个模型发生使用超纲知识解答的情况，但因为测试全程未做任何 prompting engineering，模型可能并不知道有解题方法限制。

一年提100多分，大模型何以从学渣变学霸？

去年，有科技媒体组织大模型参加了河南高考，文科最高成绩为 562 分，理科则为 469.5 分。短短一年时间，大模型在文理科成绩上均提高了 100 多分。

多款大模型之所以能在今年的山东高考中表现不凡，自然离不开其在推理能力和多模态处理方面持续不断的技术创新与深度优化。而这种技术演进，在 Gemini、OpenAI 系列模型和豆包等「考生」中体现得尤为明显。

今年 3 月，谷歌推出了 Gemini 2.5 Pro。它能在输出前通过思维链进行深度推理，显著提升数学、科学与代码推理水平，并在多项 benchmark 中取得领先成绩 。同时，它能够理解海量数据集，并处理来自不同信息源（包括文本、音频、图像、视频，甚至整个代码库）的复杂问题。

OpenAI 的 o3 是 OpenAI 最强大的推理模型，可以在响应之前进行更长时间的思考，并首次将图像融入其思维链中，通过使用工具转换用户上传的图像，使其能够进行裁剪、放大和旋转等简单的图像处理技术，更重要的是，这些功能是原生的，无需依赖单独的专用模型。这就意味着，模型在面对复杂数学、科学、编程任务时具备更像人类的分步思考能力，还能理解图像，可以在各种图文题和复杂题目场景下调动更全面感知与推演能力。

豆包大模型则在半个月前宣布了 1.6 系列的上新，Seed-1.6 模型采用了多模态能力融合的预训练策略，将其分为纯文本预训练、多模态混合持续训练（Multimodal Mixed Continual Training， MMCT）、长上下文持续训练（Long-context Continual Training， LongCT）三个阶段。

这不仅强化了文本理解，还引入了视觉模态，能对图表、图像等信息进行解析，提供更加全面的推理。而且它支持高达 256K 的上下文长度，可以处理更为复杂的问题。

基于高效预训练的 base 模型，团队在 Post-training 阶段研发了融合 VLM 各项能力、能通过更长思考过程实现极致推理效果的 Seed1.6-Thinking，也就是本次挑战高考山东卷的选手。

Seed1.6-Thinking 训练过程中采用了多阶段的 RFT 和 RL 迭代优化，每一轮 RL 以上一轮 RFT 为起点，在 RFT 候选的筛选上使用多维度的 reward model 选择最优回答。同时加大了高质量训练数据规模（包括 Math、Code、Puzzle 和 Non-reasoning 等数据），提升了模型在复杂问题上的思考长度，并且在模型能力维度上深度融合了 VLM，给模型带来清晰的视觉理解能力。

明年，我们还需要让大模型参加高考吗？

「AI 参加高考」已经成为了一年一度的热点话题。在图像识别、自然语言处理技术还不够强大的年代，「标准化考试」的确是检验 AI 技术进步的一种方式。

正因此，每一年的「AI 赶考」都会引发大众对 AI 能力边界、未来教育模式以及人类智能独特性的讨论。在这个过程中，大众讨论的核心逐渐从「能不能做题」转为「能做到什么程度」、「AI 能否理解深层含义和情感」等。

而这个周期性的议题在 2025 年迎来了里程碑式转折，大模型在文本理解和生成、多模态理解、推理层面都有了显著进步。AI 开始学会理解题目背后的深层逻辑和价值观，开始理解特定学科领域的图像信息，生成的答复也有了思想深度。

这种进步当然体现在了高考成绩上：从去年勉强过一本线，到 2025 年冲击清北、保底 985，大模型仅用一年时间就完成了从「普通本科」到「双一流」的蜕变。这让我们也意识到，高考这个曾经检验大模型「智力」水平的「试金石」，似乎变得不再具备挑战性。

明年，像 Gemini、豆包这些大模型或许没必要再做高考试卷，不妨告别标准化考试的框架，更深度地融入到科学研究、艺术创作、编程开发等真正创造「生产力」的领域，解决真实世界中那些没有标准答案的复杂难题，让人类少一些重复劳动。

我们有理由相信，在不久的将来，大模型会成为各个领域的行家里手。

#大模型的Loss Landscape是什么样的？

从loss landscape的角度探究大模型！

如果对background非常熟悉的话，非常强烈建议直接跳到Sec. 3! 相信这会让您更有兴趣阅读这篇文章！

Too Long, Don't Read:

在本篇博客中，我们大家一起从loss landscape的角度探究了大模型。非常好玩的是，大模型的landscape是basin而不是平滑的，在某个区域内能力基本一模一样，出了这个区域就gg。而且pre-train会给一个basic capacity basin。后续的SFT会在里面创造math basin，coding basin, reasoning basin, safety basin等等。因此我们猜想，在basin内SFT并不会损失性能，而损失性能则是因为fine-tuning距离出了basin。我们通过Clopper Pearson bound发现99.9%的方向都是差不多的，basin size都一样，只有0.1%的方向会比较烂，并且通过RS技术让大多数方向平滑了这些差方向，从而使得大多数方向都差不多好~

小模型的landscape

而大模型的landscape是这样的！：

引言

你是否遇到过这种情况：一个好端端的模型（例如Llama-3, Qwen-2），我就想增加一下它的安全能力，结果在我自己的安全数据集上fine-tune完之后，它的数学能力、推理能力退化了好多？

在安全数据集上fine-tune的模型，对正常问题也会出现拒答。图片来自于https://arxiv.org/abs/2309.07875

一些非常正常的问题也直接拒答，大幅度影响其正常性能。图片来自于https://arxiv.org/abs/2309.07875

你又是否遇到过这种情况：很对偶的，一个好端端的模型（例如Llama-3, Qwen-2），我就想增加一下它的数学能力，结果在我自己的数学数据集上fine-tune完之后，它的安全能力直接没了？直接就开始回答how to make a bomb了？

在Alpaca这种极度正常的，增强模型指令跟随能力的SFT数据集上finetune后，安全性都不足原来的一半了，图片来自https://arxiv.org/pdf/2310.03693

甚至，只要在10条数据，总长度小于1000的恶意数据上fine-tune，模型就可以回答任何你问的恶意问题？

10条数据，总长度小于1000的恶意数据上fine-tune，模型就可以回答任何你问的恶意问题，图片来自https://arxiv.org/pdf/2310.03693

如果说fine-tune模型是因为模型本身就有足够的学习能力，所以会倾向于学习新的东西，这就算了。可是为什么完全不fine-tune模型，只去fine-tune模型的输入，也能让模型回答任何你问的问题呢？

图片来自Andy Zou的GCG

或许从Loss Landscape的角度可以解释这些问题！

Loss Landscape

Loss landscape是对神经网络这个高维函数的一个可视化。即，当参数变化时，模型的loss如何变化。

可是模型的参数（如7B）很大，想要完全画出来不现实。因此我们往往会选择2个或者1个随机方向来画loss landscape，即：

为什么这样做是合理的，是因为对于，深度学习中大多数模型和大多数任务，大多数方向的loss变化几乎没有任何差别。 因此，随机可视化一个方向，就已经代表了大多数方向上loss的变化。

以往我们看到的小模型loss landscape是这样的：

小模型上loss landscape也给了我们很多启示，如越平坦的地方往往抗扰动能力越强，如果假设测试集的landscape是训练集的平移，那么越平坦的极小值点，就更容易是泛化性更好的极小值点。再比如，如果收敛到各个loss比较接近的点，模型往往能学的比较融会贯通，从而得到更好的智能：

landscape还有什么性质与泛化性有关？ICLR 2024(https://zhuanlan.zhihu.com/p/680197033)

那么，大模型的loss landscape是什么样的呢？也是和小模型有平坦、尖锐、平滑的样子吗？

大模型的most-case loss landscape

非常不一样的是，大模型的loss landscape和小模型截然不同。大模型的loss landscape就像一个Basin（盆地）一样，在盆地内部，模型的效果基本没有任何变化（这岂不是意味着在盆地内部怎么移动都不怎么影响性能？）。出了盆地，模型的能力就完全消失，直接输出乱码了。。

图片来自https://arxiv.org/pdf/2405.17374

我们可以画一画模型不同能力的landscape~你总是能发现，pre-training basin会给模型一些基础的语言对话能力。而后续的alignment，都是在pre-training basin内部，创造一个又一个的小basin, 如math basin, coding basin, safety basin等：

像llama-3和qwen可能alignment做的非常充分，alignment所trigger的能力（如safety/math/coding)基本和basic capacity basin一样大了：

Llama and Qwen

而Mistral模型就截然不同。他Basic capacity basin比另外两位小也就算了，后续alignment的各种能力，如math/coding/safety全都比basic capacity basin小一截。这岂不是说，只要你沿着大多数方向走(fine-tune也好，还是attack也好)，轻而易举的就走到了math/coding/safety能力全没了但是还能正常对话的模型上？

Mistral

从上面的分析来看，Basin大似乎是一件好事。因为如果Basin大，这就意味着沿着大多数方向走，模型的能力是在这个范围内是不会有任何下降的。而这个大多数方向可以通过Clopper Pearson Bound给出下界，例如99.9%的方向均是如此！（对应Clopper Pearson Bound第一类错误0.001，见附录）

这就意味着，只要你fine-tune是在这99.9%的方向里，只要你在basin内fine-tune，那么你就一定不会compromise任何性能！当且仅当你fine-tune的距离太远了，以至于出了basin，才会compromise性能！

而我们也可以轻易发现，越大的模型确实basin就越大，就越不容易在后续的fine-tune中compromise 之前所得到的性能！

大模型的worst-case landscape

这虽然能解释为什么fine-tuning会遗忘（因为他们tune出了basin，basin越小的模型越容易fine-tune后遗忘），可是如何解释使用仅仅10条对抗数据去fine-tune，总token数都不到1000，模型就直接把安全能力全忘了呢？难道1000token的训练量已经足够让模型走到basin外面了吗？

这其实很好解释。因为如果使用对抗的数据，模型SFT的走向也根本不是这99.9%的大多数方向(most-direction)，而是最差方向：

我们可以看到，不论是啥模型，什么能力，只要你沿着最差的方向走，走一点点，模型所有能力就全没了。。所以这最差方向是真的差。

最差方向为什么会如此之大呢？这其实有一种简单理解。因为维度实在是太大了（7B模型就是70亿的维度）。总有一些维度会特别特别的差。当维度足够多的时候（采样次数足够多），你总能找到个巨差的方向。其实对抗样本的成因亦是如此。甚至，这里肯定会比对抗样本的最差方向更差。因为对抗样本是输入空间，就算是图像也只有3x256x256<256k维度。而这里可是实打实的7B维度，比前面大了100000倍呢！

对抗样本和landscape的联系

刚刚我们已经解释了为什么正常的fine-tuning会导致遗忘（因为tune出basin了），以及为什么对抗数据可以迅速遗忘（因为走的最差方向）。那么为什么不是tune参数，而是优化输入，也能导致模型输出任何你想要的输出呢？

这其实很好理解。因为对抗样本这种优化输入，和fine-tuning这种优化参数（包括第一层参数），其实没啥区别！

我们来考虑第一层线性层。如果你能通过tune第一层线性层来使得模型g掉的话：

那么你也一定能通过修改输入来使得模型g掉：

这是因为当第一层列满秩的时候，两种扰动可以在第一层的activation space产生相同的向量。

至于为什么第一层是列满秩，这是因为模型总是倾向于利用全部的空间来储存信息，至少要把所有维度都利用完才开始superposition。这一点我们在之前的博客中一起探索过：

真的能偷GPT-4等商用模型的参数吗？(https://zhuanlan.zhihu.com/p/917520808)

因此，我们成功解释了我们一开始的三个问题！为什么正常的fine-tuning会导致遗忘（因为tune出basin了），以及为什么对抗数据可以迅速遗忘（因为走的最差方向），为什么tune输入也能GG（因为tune输入和tune weight没啥本质区别）

一些理论性质

到现在大家可能会觉得模型大多数方向(99.9%)都挺好，就是剩下那极少数的方向坏了事情。但非常好玩的一件事是，其实可以有一种方法，让你直接通过大多数方向的性能，来lower bound住极少数方向的性能！

比如说我们的模型在的范围内，大多数方向都表现差不多：

那我们实际上就可以通过RS这项技术，在不损失任何大多数方向性能的情况下，保障你最差的方向的degradation不会超过的fine-tuning距离！

举个例子，比如说你SFT距离是1，那么就可以保障你的performance degradation一定不会超过

！

这里的intuition是，因为大多数方向都很好，我们就可以用大多数方向(most-case direction)来平滑掉那个"worst-case direction"。具体推导和证明我们在之前也一起探究过：

证明LLM的鲁棒性下界就是在解0-1背包问题？(https://zhuanlan.zhihu.com/p/21266930786)

扩散模型是不能被攻击的(https://zhuanlan.zhihu.com/p/12592746504)

我们带入我们之前的结果，就可以轻而易举的得到更强的result（这个result其实很重要，保障了越强的能力变化越小，越弱的能力变化越多。能力越趋近于1，sft后的损失越趋近于0）

因此，我们相当于得到了对于沿着任何方向SFT的性能保障。既然我们有对参数空间的保障，那根据我们最开始的分析，也可以得到输入空间对对抗攻击的保障！（其实就是把等价的参数变化带进来。。。没啥高端的。。）

大模型的basin可以轻易增大

通过上述分析，我们感觉basin大好处多多。既可以在正常的fine-tuning下有更强的表达能力(可以用Rademacher Complexity更严谨的来说），并且还不会遗忘，而且还能抵抗特别脏的数据的fine-tuning，而且还能对用户特意造的输入这种对抗攻击有鲁棒性。那么，我们是否可以增大basin呢？

其实直接优化我们刚刚一起定义的basin大小，即definition 4.1即可！

优化器我想大家都能异曲同工地设计出同一个来：

结语

本篇博客的研究内容都来自于这篇论文。如果对您有启发，或是对研究成果有不同的观点，欢迎评论区和我一起探究呀！

Understanding Pre-training and Fine-tuning from Loss Landscape Perspective

https://arxiv.org/abs/2505.17646

所有非本人画的图均已经标明出处（侵删）。非常感谢这些工作的启发：

[1] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

[2] Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow InstructionsSafety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions

[3] Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language ModelsNavigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models

#OpenAI突袭AI办公

微软谷歌恐遭大洗牌！密谋一年曝光，Office帝国危了

微软Office「全家桶」的霸主地位，也要不保了？最新爆料称，OpenAI密谋一年计划在ChatGPT中加入两大办公功能——「文档协作」与「即时通讯」，战略版图已渗透到各个领域。

OpenAI未来想要做的，便是吞掉微软、谷歌的市场。

Information独家爆料称，OpenAI内部已筹划一年，计划在ChatGPT中植入「文档协作」与「即时通讯」功能。

OpenAI这一步棋，直接向「金主爸爸」微软发起正面挑战，同时也将开辟与谷歌竞争的新战线。

如今，谷歌搜索引擎部分流量，因用户转向ChatGPT严重流失。6月最新统计显示，仅ChatGPT蚕食了全球79%流量份额。

在办公领域，微软Office和谷歌Workspace，已成为许多企业办公生产力的基础。

尽管这些功能发布时间尚未明确，但OpenAI的战略意图十分清晰——

把ChatGPT打造为「超级智能的个人助理」。

OpenAI万能办公神器，

微软谷歌危了？

对于所有ChatGPT用户来说，「文档协作」功能是一种自然的延伸。

这一计划表明，未来OpenAI可能还会开发文件存储等，能够让人与AI、人与人之间协同的功能。

「协作工具」和「文件存储」功能的加入，可以将ChatGPT从单一对话工具，转型为综合性生产力平台。

未来，不用跳出ChatGPT，或许就可实现类似谷歌Docs的实时文档编辑，微软Teams的团队沟通。

对于那些持续订阅ChatGPT服务的企业，新功能更具吸引力。

他们通常倾向于为员工统一采购，诸如微软Office和谷歌Workspace之类的生产力应用套件。

如今，微软和谷歌出售的这些办公套件中，也已包含了类似AI助手的功能。

而以上这些，还远远不足以支撑OpenAI的终极战略。

未来，他们计划开发个人AI设备、设计网页浏览器，以及为ChatGPT用户开发一个类似X的社交媒体平台。

这些布局表明，OpenAI正试图成为消费者和企业接入互联网、完成工作的「核心入口」。

内部人士透露，OpenAI产品主管Kevin Weil等高层早在近一年前，就展示了「文档协作」功能的设计方案。

但由于人手不足，开发一度被搁置。

在AI助手、编程助手、API等业务上，微软与OpenAI早已是竞争对手。

随着ChatGPT新功能的推出，无疑进一步触及微软Office全家桶的核心腹地，让两者本来错综复杂的关系，变得更加紧张。

目前，OpenAI正试图说服微软，批准其旗下负责ChatGPT等业务的营利性部门的重组计划。

在此过程中，双方都在盘算如何能从对方那里获得重大的利益让步。

AI协作「试水」之作——Canvas

早在去年10月，OpenAI曾推出了ChatGPT全新功能——Canvas。

这款工具，可以让用户与AI一起协作，共同编辑文档、编写代码，曾被外界视为OpenAI进军协作领域的第一步。

不论是研究、审查代码、写作，仅在ChatGPT页面中，通过Canvas即可与AI并肩作战完成任务。

另有人爆料称，最近，OpenAI已开发出一款支持多用户在ChatGPT内，围绕共享工作进行「沟通」的软件，随时可能上线。

这几天，ChatGPT还上线了一款笔记工具，可以录制通话或会议，并将笔记自动存入Canvas。

不过，由于ChatGPT不提供文件存储等基础功能，这款工具的实际价值还很有限。

ChatGPT能力不断完善，对于企业版和团队版付费300万用户来说，将获得更加智能、高效的体验。

如今，企业级ChatGPT订阅业务，吸引了Moderna、T-Mobile等客户，已为OpenAI带去了巨额的收入。

OpenAI预测，到2030年，ChatGPT企业订阅业务的年收入将达约150亿美元，相较于去年6亿美元将实现大幅增长。

让微软销售团队懊恼的是，OpenAI最近还为企业订阅用户打折，明着要抢夺更多的市场份额。

豪掷十亿造Copilot，却卖不出去了

如今，微软正奋力向企业兜售Copilot AI助手，令人扎心的是，许多企业员工的「心头好」却是ChatGPT。

微软斥资数十亿美元打造的Copilot，被寄予厚望，意在称霸企业级AI市场。

去年春天，制药巨头Amgen高调宣布，为20000名员工引入微软Copilot。

这是一次恰逢其时的背书。

微软也在其后发布的3份独立案例研究中，大力宣传了这位新客户。

然而，谁也没有想到，仅仅13个月后，Amgen员工却纷纷转向了ChatGPT。

在听取员工关于ChatGPT有助于科研，及科学文献摘要等任务的反馈后，Amgen于今年早些时候扩大了这款工具的使用范围。

这家公司高级副总Sean Bruich表示，OpenAI在提升产品趣味性方面做得非常出色。

随后他又补充道，「Copilot仍是一款『相当重要的工具』，但其优势更多体现在与微软自家的Outlook或Teams等产品协同使用时」。

OpenAI微软正面对决

OpenAI在企业市场初露锋芒，却让微软头疼不已。

微软的销售人员坦言，「在公司要求他们全力推广Copilot的压力之下，他们反被打了个措手不及」。

据悉，OpenAI已有300万付费商业用户，数月内便实现了50%惊人增长。

微软虽称70%《财富》500强都在用Copilot，付费用户更是去年同期3倍。

Gartner分析师指出，许多企业仍处于测试Copilot初期，这为OpenAI等竞争对手，提供了抢占市场的「窗口期」。

就眼下而言，这已然是OpenAI和微软之间的一场「正面对决」。

两家公司本质上推销的是同一类产品：能处理研究写作、数据分析等繁重任务的AI助手，从而打工人专注于更棘手的挑战。

不论是ChatGPT，还是Copilot，几乎基于相同的OpenAI模型构建。

对于微软来说，完全没有优势，甚至销售团队也很难将Copilot和更具知名度的ChatGPT区分开来。

理论上，微软Windows操作系统、Office办公全家桶的广泛应用，应当是Copilot的「天然护城河」。

微软的销售团队多年来凭借与企业IT部门的深厚关系，总能推动新产品无缝融入客户现有体系。

然而，ChatGPT的消费级市场热度，早已率先渗透到企业员工的日常生活中。

有趣的是，微软许多办公室员工在家都用的是ChatGPT。

更雪上加霜的是，OpenAI的模型更新，往往因微软的内部测试流程，而延迟数周才能在Copilot中上线。

在此之前，微软还要确保每个新版本，在用户体验和安全性上达标，这无疑削弱了Copilot竞争力。

相较之下，ChatGPT的快速迭代，还有灵活性更能满足企业对前沿AI的需求。

「双轨并行」

面对这两款AI助手的激烈竞争，一些企业不管是谁，干脆全部拿来用。

比如，微软另一位客户纽约人寿保险公司正向12,000名员工同时推出ChatGPT和Copilot。

接下来，他们计划通过使用数据和员工反馈，来决定最终采用哪款工具。

类似地，另一家长期客户贝恩的16,000名员工，绝大多数都在频繁使用ChatGPT。

只有约2,000名员工使用Copilot，且主要是在处理Excel等微软程序工作时寻求辅助。

此外，价格也是企业选择的重要考量。

Copilot的定价为每用户每月30美元，远低于ChatGPT企业版高达60美元的订阅费。

然而，Copilot的价格优势未必能持久。

如上所述，OpenAI发言人称，该公司已推出按使用量付费的定价模式，取代了固定的订阅费，

这有望降低企业的人均使用成本，从而进一步推动其普及。另外，OpenAI还为那些同意采购其附加AI产品的客户提供折扣。

不过，这场竞争微软暂时未输，凭借深厚的市场根基和整合优势，仍有望在企业市场中占据一席之地。

半月一次内部会议上，纳德拉兴奋地告知员工：「巴克莱银行、埃森哲和大众汽车在内的数十家客户，每家都拥有超过10万名Copilot付费用户」。

但他也明确指出，微软的目标是让数亿人使用其AI应用系列。

不过，如果未来更多客户转向了OpenAI，这个目标恐怕只会化为泡影。

参考资料：

https://www.theinformation.com/articles/openai-quietly-designed-rival-google-workspace-microsoft-office?rc=epv9gi

https://www.bloomberg.com/news/articles/2025-06-24/chatgpt-vs-copilot-inside-the-openai-and-microsoft-rivalry?embedded-checkout=true

查看全文

http://www.xdnf.cn/news/1075051.html

2025年光学工程、精密仪器与光电子技术国际会议（OEPIOT 2025）

物联网基础

Git 常用命令、常用错误的总结

2 大语言模型基础-2.2 生成式预训练语言模型GPT-2.2.2 有监督下游任务微调-Instruct-GPT强化学习奖励模型的结构改造与维度转换解析

[论文阅读] Neural Architecture Search: Insights from 1000 Papers

超表面重构卡塞格林望远镜 | 从传统架构到新型光学系统

最大矩形最大正方形-力扣

优雅草蜻蜓HR人才招聘系统v2.0.9上线概要 -优雅草新产品上线

飞算JavaAI 2.0.0深度测评：自然语言编程如何重构开发生产力？

生成式人工智能实战 | 变分自编码器（Variational Auto-Encoder, VAE）

基于STM32温湿度检测—串口显示

HTML5 实现的圣诞主题网站源码，使用了 HTML5 和 CSS3 技术，界面美观、节日氛围浓厚。

k8s pod深度解析

k8s创建定时的 Python 任务（CronJob）

【c/c++1】数据类型/指针/结构体，static/extern/makefile/文件

SpringSecurity6-oauth2-三方gitee授权-授权码模式

详解快速排序

宏任务与微任务和Dom渲染的关系

左神算法之螺旋打印

Redis Cluster Gossip 协议

在Linux系统中部署Java项目

#Gemini Robotics On-Device

#ROLL

#清华牵头搭起大模型安全的下一级阶梯

#上下文工程（context engineering）

#是造「人」还是造「生产力」？

#机器人顶会RSS 2025奖项公布

#ParallelComp

#GoT-R1

#何恺明新身份

#ScienceBoard

#LaVi

#OpenAI苏黎世办公室被Meta一锅端

#Gemini CLI

#RoboTransfer

#Maximal Update Parametrization最大更新参数化（μP）

#夏威夷门票你抢到了吗？

#5款大模型考「山东卷」

#大模型的Loss Landscape是什么样的？

#OpenAI突袭AI办公

相关文章：