当前位置：首页 > backend >正文

（读转载文）AI发展的“上半场”与“下半场”

backend 2025/6/18 9:06:38

Shunyu Yao blog

AI发展的“上半场”与“下半场”

该文作者以“AI发展的上下半场”为框架，系统梳理了人工智能领域的技术演进逻辑与未来方向。核心观点可概括为：过去几十年AI的发展聚焦于“方法创新”（上半场），通过开发新模型和训练方法取得显著突破；而当前已进入“下半场”，需从“解决问题”转向“定义问题”，将重点从模型训练转向评估体系重构，以解决AI的实际效用问题。

一、上半场：方法驱动的突破——从基准测试到通用能力跃升

作者将AI的“上半场”定义为以“开发新训练方法和模型”为核心的阶段。这一阶段的典型特征是：通过算法创新推动模型性能提升，并以基准测试（benchmarks）作为进步的主要衡量标准。

关键里程碑与方法创新

代表性成果：DeepBlue（国际象棋）、AlphaGo（围棋）、GPT-3/4（语言）、o系列模型（多任务）等，覆盖了从游戏到语言、数学、考试等多个领域。
底层技术突破：搜索（如AlphaGo的蒙特卡洛树搜索）、深度强化学习（Deep RL）、规模扩展（scaling laws，即模型参数量、数据量与算力的指数级增长）、推理能力（如通过语言和思维链实现复杂决策）是推动进步的四大核心方法。
方法优先于任务的逻辑，为何聚焦方法：开发新算法或模型架构（如卷积网络、Transformer）需要极高的原创性和工程能力，且这些方法具有普适性——例如Transformer不仅用于语言处理，还扩展到了计算机视觉（CV）、强化学习（RL）等领域；而任务定义相对简单（如翻译、图像分类），只需将人类任务转化为基准测试即可。
基准测试的局限性：尽管基准测试（如ImageNet、WMT’14）推动了技术进步，但其设计初衷是验证方法有效性，而非直接对应现实需求。例如，ImageNet分类准确率的提升并未直接转化为现实世界的视觉应用价值。

二、转折点：RL的通用化——从单一任务到多领域的覆盖

作者指出，近期AI发展的关键转折在于“强化学习（RL）终于实现了通用化”。这一突破并非源于算法本身的剧变，而是通过“语言+推理”重构了RL的任务解决范式。

传统RL的瓶颈

算法中心主义：过去RL研究主要关注算法设计（如REINFORCE、PPO等），将环境和先验知识视为固定或次要因素。例如，经典教科书《Reinforcement Learning: An Introduction》几乎未涉及环境构建或先验知识的作用。
环境依赖性强：RL算法的性能高度依赖特定环境（如游戏、模拟器），难以跨领域迁移。例如，擅长Dota游戏的RL智能体无法直接应用于网页操作或数学解题。

关键要素

作者提出，当前RL通用化包含三个关键成分：

大规模语言预训练：通过海量文本训练（如GPT系列），模型习得了通用的语言理解和常识知识，成为强大的“先验库”。
规模扩展：数据量与计算资源的指数级增长，使得模型能够从预训练中吸收更丰富的模式。
推理与行动的结合：将语言推理作为RL的动作空间（如“思考→行动→观察”的循环），而非简单的物理动作（如鼠标点击）。

验证价值：单一模型可通过语言和推理解决原本需要不同专精模型的任务，包括软件工程、创意写作、IMO级数学、网页操作和长文本问答等。

三、下半场：从解决问题到定义问题——评估体系的范式重构

作者认为，随着“通用方案”的成熟，AI发展已进入“下半场”。这一阶段的核心矛盾不再是“能否训练出解决任务的模型”，而是“应该训练AI做什么”以及“如何定义有用的场景 ”。

效用问题凸显

尽管AI已在多项基准测试中超越人类（如国际象棋、SAT考试、IMO数学），但对现实世界的影响有限（如未显著提升经济指标）。作者将此归因于评估体系与现实需求的脱节，即“效用问题”：

评估假设的局限

自动化评估：现有基准通常要求模型独立完成任务（输入→输出→评分），但现实中人类任务往往需要交互（如客服需多轮对话）。
独立分布假设：测试集任务相互独立且分布相同，但现实中任务具有连续性（如程序员解决同一项目的多个问题时会积累经验）。

下半场的核心任务

重新定义评估：需设计更贴近现实的评估体系，例如引入真人交互（如Chatbot Arena）、模拟用户行为（如tau-bench）或测试长期记忆能力。
打破配方依赖：通过改变评估假设（如非i.i.d.任务、交互式场景），迫使研究者突破现有“通用配方”的局限，探索真正适配现实需求的新方法。
研究范式的转变
下半场的研究将更注重“问题定义”而非“模型优化”。
成功的关键在于：

产品思维：需平衡技术可行性与用户需求，定义有价值的任务目标。
跨领域协作：结合认知科学、经济学等领域，重新思考AI与人类的交互模式。

四、总结

原文核心线：AI从“方法驱动”到“问题驱动”的范式跃迁：

上半场：通过算法创新和基准测试推动技术边界，验证了AI在特定任务上的能力；
下半场：需以现实需求为导向，重构评估体系，解决“通用配方”与“现实效用”之间的鸿沟。

这一转变不仅关乎技术突破，更涉及研究文化、评估标准和产业应用的全面革新——正如作者所言：“欢迎来到下半场！”

http://www.xdnf.cn/news/14085.html

相关文章：

分布假设学习笔记

比特币---第1关：矿工任务及所需硬件

使用 C++ 和 OpenCV 构建智能停车场视觉管理系统

C#最佳实践：推荐使用 nameof 而非硬编码名称

地图布局进阶：插入属性表打开外部文件

ShaderToy：旋转风车（atan曲线）

学生端前端用户操作手册

React SSR同构渲染方案是什么？

PDM网络图上的ES、EF、LS、LF是干嘛的怎么计算下一个节点的数值

进程和线程的相关命令

Python 高级主题与性能优化指南

爱普生RX8111CE实时时钟模块在汽车防盗系统中的应用

声波下的眼睛：用Python打造水下目标检测模型实战指南

使用Amazon Elastic Beanstalk部署高考倒计时Flask应用：完整实践指南

idea maven打包很慢，怎么提速-多线程

2024开发者生态报告 | AI重构编程、语言新贵崛起与工具效率革命

【免费分享】GWO-BP-AdaBoost预测！灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究

通过示例解释 C# 中强大的 LINQ的集运算

python 将CAD的dwg转geoJson

零基础学前端-传统前端开发（第四期-JS基础-运算）

【C语言指南】数组作为函数参数的传递机制

从零到一：构建企业级 Vue.js 3 组件库

Arcgispro底图突然加载失败解决办法+属性表中文乱码

k8s从入门到放弃之k3s轻量级

第四届智能电网与能源系统国际学术会议（SGES 2025）

Hive 序列化与反序列化：数据的 “打包“ 与 “拆箱“ 艺术

Angular入门的环境准备步骤工作

RabbitMQ缓存详解：由来、发展、核心场景与实战应用

HarmonyOS 5中UniApp的调试步骤

宝塔面板如何关闭https强制跳转http/https共存？