(读转载文)AI发展的“上半场”与“下半场”
Shunyu Yao blog
AI发展的“上半场”与“下半场”
该文作者以“AI发展的上下半场”为框架,系统梳理了人工智能领域的技术演进逻辑与未来方向。核心观点可概括为:过去几十年AI的发展聚焦于“方法创新”(上半场),通过开发新模型和训练方法取得显著突破;而当前已进入“下半场”,需从“解决问题”转向“定义问题”,将重点从模型训练转向评估体系重构,以解决AI的实际效用问题。
一、上半场:方法驱动的突破——从基准测试到通用能力跃升
作者将AI的“上半场”定义为以“开发新训练方法和模型”为核心的阶段。这一阶段的典型特征是:通过算法创新推动模型性能提升,并以基准测试(benchmarks)作为进步的主要衡量标准。
关键里程碑与方法创新
- 代表性成果:DeepBlue(国际象棋)、AlphaGo(围棋)、GPT-3/4(语言)、o系列模型(多任务)等,覆盖了从游戏到语言、数学、考试等多个领域。
- 底层技术突破:搜索(如AlphaGo的蒙特卡洛树搜索)、深度强化学习(Deep RL)、规模扩展(scaling laws,即模型参数量、数据量与算力的指数级增长)、推理能力(如通过语言和思维链实现复杂决策)是推动进步的四大核心方法。
- 方法优先于任务的逻辑,为何聚焦方法:开发新算法或模型架构(如卷积网络、Transformer)需要极高的原创性和工程能力,且这些方法具有普适性——例如Transformer不仅用于语言处理,还扩展到了计算机视觉(CV)、强化学习(RL)等领域;而任务定义相对简单(如翻译、图像分类),只需将人类任务转化为基准测试即可。
- 基准测试的局限性:尽管基准测试(如ImageNet、WMT’14)推动了技术进步,但其设计初衷是验证方法有效性,而非直接对应现实需求。例如,ImageNet分类准确率的提升并未直接转化为现实世界的视觉应用价值。
二、转折点:RL的通用化——从单一任务到多领域的覆盖
作者指出,近期AI发展的关键转折在于“强化学习(RL)终于实现了通用化”。这一突破并非源于算法本身的剧变,而是通过“语言+推理”重构了RL的任务解决范式。
传统RL的瓶颈
- 算法中心主义:过去RL研究主要关注算法设计(如REINFORCE、PPO等),将环境和先验知识视为固定或次要因素。例如,经典教科书《Reinforcement Learning: An Introduction》几乎未涉及环境构建或先验知识的作用。
- 环境依赖性强:RL算法的性能高度依赖特定环境(如游戏、模拟器),难以跨领域迁移。例如,擅长Dota游戏的RL智能体无法直接应用于网页操作或数学解题。
关键要素
作者提出,当前RL通用化包含三个关键成分:
- 大规模语言预训练:通过海量文本训练(如GPT系列),模型习得了通用的语言理解和常识知识,成为强大的“先验库”。
- 规模扩展:数据量与计算资源的指数级增长,使得模型能够从预训练中吸收更丰富的模式。
- 推理与行动的结合:将语言推理作为RL的动作空间(如“思考→行动→观察”的循环),而非简单的物理动作(如鼠标点击)。
验证价值:单一模型可通过语言和推理解决原本需要不同专精模型的任务,包括软件工程、创意写作、IMO级数学、网页操作和长文本问答等。
三、下半场:从解决问题到定义问题——评估体系的范式重构
作者认为,随着“通用方案”的成熟,AI发展已进入“下半场”。这一阶段的核心矛盾不再是“能否训练出解决任务的模型”,而是“应该训练AI做什么”以及“如何定义有用的场景 ”。
效用问题凸显
尽管AI已在多项基准测试中超越人类(如国际象棋、SAT考试、IMO数学),但对现实世界的影响有限(如未显著提升经济指标)。作者将此归因于评估体系与现实需求的脱节,即“效用问题”:
评估假设的局限
- 自动化评估:现有基准通常要求模型独立完成任务(输入→输出→评分),但现实中人类任务往往需要交互(如客服需多轮对话)。
- 独立分布假设:测试集任务相互独立且分布相同,但现实中任务具有连续性(如程序员解决同一项目的多个问题时会积累经验)。
下半场的核心任务
- 重新定义评估:需设计更贴近现实的评估体系,例如引入真人交互(如Chatbot Arena)、模拟用户行为(如tau-bench)或测试长期记忆能力。
- 打破配方依赖:通过改变评估假设(如非i.i.d.任务、交互式场景),迫使研究者突破现有“通用配方”的局限,探索真正适配现实需求的新方法。
- 研究范式的转变
下半场的研究将更注重“问题定义”而非“模型优化”。 - 成功的关键在于:
- 产品思维:需平衡技术可行性与用户需求,定义有价值的任务目标。
- 跨领域协作:结合认知科学、经济学等领域,重新思考AI与人类的交互模式。
四、总结
原文核心线:AI从“方法驱动”到“问题驱动”的范式跃迁:
上半场:通过算法创新和基准测试推动技术边界,验证了AI在特定任务上的能力;
下半场:需以现实需求为导向,重构评估体系,解决“通用配方”与“现实效用”之间的鸿沟。
这一转变不仅关乎技术突破,更涉及研究文化、评估标准和产业应用的全面革新——正如作者所言:“欢迎来到下半场!”