当前位置: 首页 > ds >正文

OpenAI o3和o4 - mini模型发布:创新乏力与竞争困境

在人工智能领域,OpenAI 一直是一颗耀眼的明星,其每一次新技术的推出都备受行业关注。曾经,OpenAI 凭借着在人工智能技术研发方面的激进态度和高举旗帜式的前进姿态,被视为通往通用人工智能(AGI)正确道路的引领者。然而,如今其发展似乎遭遇了一些瓶颈,最近发布的 o3 和 o4 - mini 模型就引发了广泛的讨论。

在这里插入图片描述


前置知识:人工智能模型发展及关键概念

在理解 OpenAI 最新动态之前,我们需要先了解一些关于人工智能模型的基础知识。人工智能模型是通过对大量数据的学习和分析,来实现各种任务的计算机程序。在自然语言处理领域,像 GPT 系列模型(Generative Pretrained Transformer)是非常著名的模型。GPT - 3、GPT - 4 等模型在语言生成、对话理解等方面展现出了强大的能力。而 OpenAI 不断迭代这些模型,试图提升其性能和应用范围。

另外,AGI 是人工智能领域的一个重要概念,它指的是具备像人类一样广泛的智能能力,能够理解、学习和应对各种不同类型任务的人工智能系统。这是人工智能发展的一个长远目标,许多研究机构和企业都在朝着这个方向努力。同时,在人工智能模型开发中,基准测试是一个重要的评估手段,通过在特定的测试数据集上评估模型的性能,来衡量模型的好坏。


OpenAI o3和o4 - mini模型发布情况

发布方式

预热已久的 OpenAI o3 模型完整版终于面世,并且和以往直播时“挤牙膏”式的依次、慢吞发布方式不同,这次 o3 和 o4 - mini 是同时发布。以往那种缓慢的发布方式,每次只展示一点新功能,吊足了大众的胃口,但也让一些人感到有些拖沓。而这次同时发布两款模型,或许是想一次性给外界带来更多的惊喜,也显示出 OpenAI 想要重新掌控节奏的决心。

亮点功能

  • ​组合调用工具:在 OpenAI 官方的陈述中,o3 和 o4 - mini 的亮点主要在于可以组合调用 ChatGPT 中的各个工具,例如网络搜索、Python 编程、图像分析、文件解释和图像生成等。这一功能可以看作是 OpenAI 开始后发补足自身在 Agent 能力上的探索。Agent 能力在人工智能领域中非常重要,它能够让模型更加自主地完成任务,就像一个智能助手一样,根据用户的需求,灵活地调用各种工具来达到目的。
  • 图像思考能力:其中,o3 作为推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在 Codeforces、SWE - bench、MMMU 基准测试中,视觉任务准确率高达 87.5%,而 MathVista 达到 75.4%。从 OpenAI 团队成员、中科大校友 Jiahui Yu 发布的帖文来看,“用图像思考”应该是 OpenAI 去年 9 月发布 o 系列模型以来就在研发计划中的功能。之前还悄悄推出了 o1 Vision 并进行了初步预览,但并没有取得很好的效果,也没有引起关注,直到这次在 o3 和 o4 - mini 上实现了这一能力。从外部专家评估来看,o3 作为 o1 系列模型的继任者,在复杂问题上的错误率要比 o1 低 20%,适合在生物学、数学和工程领域的复杂问题查询。一位医学博士在测评后发帖表示,当他向 o3 来提问一些颇具挑战性的临床或医学问题时,回答精准、全面,符合对一位该领域真正专家的期望。不过,也有业内人士认为,这就像高考成绩不能代表工作业务能力一样,虽然测试成绩出色,但在实际工作场景中的表现还有待考验。
  • 图像融入思维链:对于那些想亲自测评、体验的用户来说,OpenAI 官方已经表示,目前 ChatGPT 的 Plus、Pro 会员以及 Team 用户,即日起就可以直接体验 o3、o4 - mini,以及 o4 - mini - high,而之前的 o1、o3 - mini 和 o3 - mini - high 已默默退出舞台。这一操作也被有些网友戏称为“内部赛马”,新的产品出来后,之前的版本就不再被支持。此次发布的模型将上传的图像直接集中到思维链中,这就意味着,图像不仅仅是被看到,还能被用来作为思考过程中的一部分。这无疑是一个重要的进步,让模型能够处理更加复杂和多模态的信息。

根据 Sam Altman 表示,o3 和 o4 - mini 可能是 ChatGPT 在 GPT - 5 发布之前的最后独立 AI 推理模型了,期间大概率是不会再有其他新款模型出来了,另外他也说了,预计将在几周内将 o3 - pro 升级到专业版。


模型创新及行业评价

创新不足

虽然 o3、o4 - mini 模型作为新产品,效果不错,有了一定的提升,但相较于 OpenAI 以往的激进和高举旗帜式前进,如今在创新上面呈现出明显的心有余而力不足。一位业内人士感叹道:“OpenAI 的步调已经不再挺胸阔步了,更不知所措。”在看完 OpenAI 这次发布的新品后,部分业内人士评价其创新步伐放缓。

其实在 GPT4.1 系列套餐发布后,不少业内人士就表示,“暂时还没看到有什么特别亮眼的突破。”“对 o3 期待值没有那么高。”或者这种“失望”要来得更早一点。去年 12 月,o3 在 OpenAI 的系列直播尾声亮相,Sam Altman 称其为“一个非常、非常聪明的模型”,完全将 O1 甩在身后,更是在 ARC - AGI 测试这一旨在评估 AI 系统适应新任务和展示流动智力能力的测试中,获得 87.5%的成绩,也是首次超越人类平均水平(85%),令业界感到震惊,被认为是在通往 AGI 的道路上迎来了新突破。但在业界开发者看来,这就好比高考成绩不能代表工作业务能力,虽然在特定测试中表现出色,但在实际应用中的表现还需要进一步验证。

行业趋势变化

如今的行业趋势已经进入到对数据高要求、对 Agent 全适配方向中,这就意味着私有化和混合模型推理为主的时代到来了。随着人工智能技术的不断发展,企业对于数据的安全性和隐私性要求越来越高,希望能够自己掌控数据,而不是将数据交给第三方使用。同时,不同的应用场景需要不同的模型来适配,单一的模型已经无法满足所有的需求,因此混合模型推理成为了一个重要的发展方向。


OpenAI 面临的竞争压力

DeepSeek 冲击

然而,OpenAI 当下的发展并非一帆风顺,面临着诸多竞争压力。前不久,DeepSeek - R1 凭借着超低的训练成本和性能媲美 o1 精彩亮相,无疑是给了 OpenAI 一记响亮的耳光。DeepSeek 的出现,让市场看到了在成本和性能之间找到平衡的可能性,这对 OpenAI 的市场地位产生了一定的冲击。而 DeepSeek 的全方位、无死角开源,像是又给了 OpenAI 再一记更响亮的耳光。开源模型可以让更多的开发者参与到模型的改进和应用中来,降低了使用门槛,这对于 OpenAI 这种相对封闭的开发模式来说,是一个不小的挑战。

DeepSeek 的这两记耳光不仅打得 OpenAI 黯然失色,还乱了它的阵脚和节奏。OpenAI 出现了模型命名混乱、功能创新不足、尝试开源但态度暧昧不明等问题,再加上内部人员高频流失,无疑正在让它慢慢失去竞争优势,再不复一年之前被视为通往 AGI 的正确的、领先的道路引领者角色。曾经 OpenAI 以技术创新和领先地位著称,吸引了大量的优秀人才和资源,如今却在多方面出现问题的情况下,逐渐失去了往日的光环。

未来发展存疑

官方也说了,此次发布的 GPT4.1 系列、o3,以及 o4 - mini 是 GPT - 5 正式发布前的最后一次模型发布了,也被视为 GPT - 5 时刻的关键一步,可以理解为是 GPT - 5 的前菜,主打“量大管饱”。但是,在技术的攀登道路上,量变能够引起质变并非唯一真理,更何况,这个量还远远不足。“GPT - 5 应该是多个 GPT4.1 组成的吧。”一位业内人士这样戏谑道,一直传 GPT - 5 或将在 5 月发布,到底 OpenAI 还能不能重回巅峰,只有到时候揭晓了。

OpenAI 此次 o3 和 o4 - mini 模型的发布,虽然在某些方面取得了一定的进展,但也暴露出了创新不足和面临激烈竞争等问题。未来,OpenAI 能否在 GPT - 5 发布时实现突破,重新夺回领先地位,我们拭目以待。人工智能领域的发展日新月异,市场竞争激烈,只有不断创新和适应行业趋势,才能在这个领域立足。


更多推荐阅读内容
大语言模型智能体:安全挑战与应对之道
当AI应用爆火时,为什么说云计算在“闷声发大财“
生成式人工智能:技术创新与社会风险的双重面向
未来技术趋势预判:合成数据、模型对抗与智能进化路径
AI网络架构入门:从“堵车公路”到“智能高速公路”的进化
AI vs AI:网络安全新时代的生死竞速战

http://www.xdnf.cn/news/2286.html

相关文章:

  • 基于物联网的园林防火监测系统
  • 代码随想录算法训练营第二十七天(补)
  • java面向对象编程【高级篇】之继承
  • Android学习总结之kotlin篇(一)
  • 多系统安装经验,移动硬盘,ubuntu grub修改/etc/fstab 移动硬盘需要改成nfts格式才能放steam游戏
  • 论文阅读:2024 arxiv HybridFlow: A Flexible and Efficient RLHF Framework
  • spark总结
  • 论文阅读:2025 arxiv Reward Shaping to Mitigate Reward Hacking in RLHF
  • Jmeter如何取JDBC request响应参数作为下一个接口的值?
  • Maven的概念与初识Maven
  • openAICEO山姆奥特曼未来预测雄文之三个观察
  • Nuxt3中使用UnoCSS指南
  • 【Android】app调用wallpaperManager.setBitmap的隐藏权限
  • 基于 Nginx 的 WebSocket 反向代理实践
  • Android JIT( ART即时编译器),Just In Time Compiler,即时编译技术
  • 科学养生,开启健康生活新方式
  • Vue2+ElementUI实现无限级菜单
  • 物联网安全运营概览
  • STM32F103C8T6裸机多任务编程的问题
  • 【C++】异常
  • 目标检测原理简介
  • 哪些物联网框架支持多协议接入?选型指南与核心能力解析
  • 机器学习之二:指导式学习
  • 【Java 数据结构】List,ArrayList与顺序表
  • 系统架构设计中的ATAM方法:理论、实践与深度剖析
  • TRO再添新案 TME再拿下一热门IP,涉及Paddington多个商标
  • 冯·诺依曼与哈佛架构CPU的时序对比
  • Xilinx FPGA支持的FLASH型号汇总
  • Tortoise-ORM级联查询与预加载性能优化
  • 浅谈Java 内存管理:栈与堆,垃圾回收