当前位置: 首页 > backend >正文

(读转载文)AI发展的“上半场”与“下半场”

Shunyu Yao blog

AI发展的“上半场”与“下半场”

该文作者以“AI发展的上下半场”为框架,系统梳理了人工智能领域的技术演进逻辑与未来方向。核心观点可概括为:过去几十年AI的发展聚焦于“方法创新”(上半场),通过开发新模型和训练方法取得显著突破;而当前已进入“下半场”,需从“解决问题”转向“定义问题”,将重点从模型训练转向评估体系重构,以解决AI的实际效用问题。

一、上半场:方法驱动的突破——从基准测试到通用能力跃升

作者将AI的“上半场”定义为以“开发新训练方法和模型”为核心的阶段。这一阶段的典型特征是:通过算法创新推动模型性能提升,并以基准测试(benchmarks)作为进步的主要衡量标准。

关键里程碑与方法创新

  1. 代表性成果:DeepBlue(国际象棋)、AlphaGo(围棋)、GPT-3/4(语言)、o系列模型(多任务)等,覆盖了从游戏到语言、数学、考试等多个领域。
  2. 底层技术突破:搜索(如AlphaGo的蒙特卡洛树搜索)、深度强化学习(Deep RL)、规模扩展(scaling laws,即模型参数量、数据量与算力的指数级增长)、推理能力(如通过语言和思维链实现复杂决策)是推动进步的四大核心方法。
  3. 方法优先于任务的逻辑,为何聚焦方法:开发新算法或模型架构(如卷积网络、Transformer)需要极高的原创性和工程能力,且这些方法具有普适性——例如Transformer不仅用于语言处理,还扩展到了计算机视觉(CV)、强化学习(RL)等领域;而任务定义相对简单(如翻译、图像分类),只需将人类任务转化为基准测试即可。
  4. 基准测试的局限性:尽管基准测试(如ImageNet、WMT’14)推动了技术进步,但其设计初衷是验证方法有效性,而非直接对应现实需求。例如,ImageNet分类准确率的提升并未直接转化为现实世界的视觉应用价值。

二、转折点:RL的通用化——从单一任务到多领域的覆盖

作者指出,近期AI发展的关键转折在于“强化学习(RL)终于实现了通用化”。这一突破并非源于算法本身的剧变,而是通过“语言+推理”重构了RL的任务解决范式。

传统RL的瓶颈

  1. 算法中心主义:过去RL研究主要关注算法设计(如REINFORCE、PPO等),将环境和先验知识视为固定或次要因素。例如,经典教科书《Reinforcement Learning: An Introduction》几乎未涉及环境构建或先验知识的作用。
  2. 环境依赖性强:RL算法的性能高度依赖特定环境(如游戏、模拟器),难以跨领域迁移。例如,擅长Dota游戏的RL智能体无法直接应用于网页操作或数学解题。

关键要素

作者提出,当前RL通用化包含三个关键成分:

  1. 大规模语言预训练:通过海量文本训练(如GPT系列),模型习得了通用的语言理解和常识知识,成为强大的“先验库”。
  2. 规模扩展:数据量与计算资源的指数级增长,使得模型能够从预训练中吸收更丰富的模式。
  3. 推理与行动的结合:将语言推理作为RL的动作空间(如“思考→行动→观察”的循环),而非简单的物理动作(如鼠标点击)。

验证价值:单一模型可通过语言和推理解决原本需要不同专精模型的任务,包括软件工程、创意写作、IMO级数学、网页操作和长文本问答等。

三、下半场:从解决问题到定义问题——评估体系的范式重构

作者认为,随着“通用方案”的成熟,AI发展已进入“下半场”。这一阶段的核心矛盾不再是“能否训练出解决任务的模型”,而是“应该训练AI做什么”以及“如何定义有用的场景 ”。

效用问题凸显

尽管AI已在多项基准测试中超越人类(如国际象棋、SAT考试、IMO数学),但对现实世界的影响有限(如未显著提升经济指标)。作者将此归因于评估体系与现实需求的脱节,即“效用问题”:

评估假设的局限

  1. 自动化评估:现有基准通常要求模型独立完成任务(输入→输出→评分),但现实中人类任务往往需要交互(如客服需多轮对话)。
  2. 独立分布假设:测试集任务相互独立且分布相同,但现实中任务具有连续性(如程序员解决同一项目的多个问题时会积累经验)。

下半场的核心任务

  1. 重新定义评估:需设计更贴近现实的评估体系,例如引入真人交互(如Chatbot Arena)、模拟用户行为(如tau-bench)或测试长期记忆能力。
  2. 打破配方依赖:通过改变评估假设(如非i.i.d.任务、交互式场景),迫使研究者突破现有“通用配方”的局限,探索真正适配现实需求的新方法。
  3. 研究范式的转变
    下半场的研究将更注重“问题定义”而非“模型优化”。
  4. 成功的关键在于:
  • 产品思维:需平衡技术可行性与用户需求,定义有价值的任务目标。
  • 跨领域协作:结合认知科学、经济学等领域,重新思考AI与人类的交互模式。

四、总结

原文核心线:AI从“方法驱动”到“问题驱动”的范式跃迁:

上半场:通过算法创新和基准测试推动技术边界,验证了AI在特定任务上的能力;
下半场:需以现实需求为导向,重构评估体系,解决“通用配方”与“现实效用”之间的鸿沟。

这一转变不仅关乎技术突破,更涉及研究文化、评估标准和产业应用的全面革新——正如作者所言:“欢迎来到下半场!”

http://www.xdnf.cn/news/14085.html

相关文章:

  • 分布假设学习笔记
  • 比特币---第1关:矿工任务及所需硬件
  • 使用 C++ 和 OpenCV 构建智能停车场视觉管理系统
  • C#最佳实践:推荐使用 nameof 而非硬编码名称
  • 地图布局进阶:插入属性表打开外部文件
  • ShaderToy:旋转风车(atan曲线)
  • 学生端前端用户操作手册
  • React SSR同构渲染方案是什么?
  • PDM网络图上的ES、EF、LS、LF是干嘛的怎么计算下一个节点的数值
  • 进程和线程的相关命令
  • Python 高级主题与性能优化指南
  • 爱普生RX8111CE实时时钟模块在汽车防盗系统中的应用
  • 声波下的眼睛:用Python打造水下目标检测模型实战指南
  • 使用Amazon Elastic Beanstalk部署高考倒计时Flask应用:完整实践指南
  • idea maven打包很慢,怎么提速-多线程
  • 2024开发者生态报告 | AI重构编程、语言新贵崛起与工具效率革命
  • 【免费分享】GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究
  • 通过示例解释 C# 中强大的 LINQ的集运算
  • python 将CAD的dwg转geoJson
  • 零基础学前端-传统前端开发(第四期-JS基础-运算)
  • 【C语言指南】数组作为函数参数的传递机制
  • 从零到一:构建企业级 Vue.js 3 组件库
  • Arcgispro底图突然加载失败解决办法+属性表中文乱码
  • k8s从入门到放弃之k3s轻量级
  • 第四届智能电网与能源系统国际学术会议(SGES 2025)
  • Hive 序列化与反序列化:数据的 “打包“ 与 “拆箱“ 艺术
  • Angular入门的环境准备步骤工作
  • RabbitMQ缓存详解:由来、发展、核心场景与实战应用
  • HarmonyOS 5中UniApp的调试步骤
  • 宝塔面板如何关闭https强制跳转http/https共存?