当前位置: 首页 > news >正文

Grok-4 发布会图文总结

文章目录

  • 00:00 - Grok-4:以“全球最智能 AI”之名突破性登场
  • 06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑
  • 13:25 - 工具使用能力的革新:从“原始”到深度整合
  • 20:06 - 直面强化学习的挑战与 AI 的终极测试
  • 26:45 - 应用演示:在浏览器中模拟黑洞碰撞
  • 33:29 - 基准测试霸榜:全面超越所有对手
  • 40:16 - 语音交互与 API:更自然、更开放
  • 46:53 - 赋能开发者:从商业策略到游戏创作
  • What is next? - 通往视频生成和通用智能的加速之路
  • 总结


7 月 9 日,xAI 举办了一场定义下一代人工智能的发布会,正式推出其号称“全球最智能 AI”的旗舰模型 Grok-4。发布会通过一系列令人震撼的现场演示和全面的基准测试数据,证明了 Grok-4 在超人级别的推理、复杂的工具使用和长远战略规划方面的卓越能力。从 4 小时制作一款游戏到在模拟商业中收益翻倍,Grok-4 展示的不仅仅是技术的飞跃,更是通往一个由 AI 深度赋能的未来的清晰路线图。

下面我们就按照时间顺序复盘一下Grok-4这48分钟的发布会都有什么亮点。

00:00 - Grok-4:以“全球最智能 AI”之名突破性登场

  • 智能的飞跃:埃隆·马斯克开场便直接宣布 Grok-4 是“世界最智能的 AI”,并强调其学习速度“远超任何人类”。他指出,Grok-4 面对 SAT 考试能次次获得满分,甚至在各学科的研究生入学考试(GRE)中都能取得近乎完美的成绩,其学识水平已达到“所有学科的研究生级别”。
  • 超人级推理:针对“AI 无法推理”的说法,马斯克明确反驳:“不,它可以在超人级别上进行推理 (it can reason at superhuman levels)”。
    请添加图片描述

06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑

  • 指数级增长:Grok-4 的训练计算量是 Grok-2 的整整 100 倍。团队不仅在“预训练”上投入巨大算力,更在“推理强化学习 (RL)”上投入了比任何其他模型多 10 倍的计算资源。
    请添加图片描述* 挑战极限基准:发布会重点介绍了“人类最后的大考 (Humanity’s Last Exam)”这一极难基准,其问题难度均为博士或前沿研究级别。马斯克评价道:“没有任何人类能在这个测试中取得高分”。
    在这里插入图片描述
    在这里插入图片描述
    请添加图片描述
  • “全科博士”:马斯克反复强调一个惊人的事实:“Grok-4 在每个学科上都优于博士水平,无一例外 (Grok is better than PhD level in every subject no exceptions)”。他预测,Grok-4 最快可能在今年晚些时候发现新技术,明年发现新物理。

13:25 - 工具使用能力的革新:从“原始”到深度整合

  • 更原生的工具使用:与 Grok-3 依赖泛化能力不同,Grok-4 在训练中就直接整合了工具使用,使其在调用工具时更加可靠和强大。
    在这里插入图片描述
  • 承认“原始”阶段:马斯克坦言,相较于特斯拉或 SpaceX 使用的“有限元分析”等高级工业工具,Grok-4 目前的工具使用仍处于“相当原始的阶段 (fairly primitive tool use)”。但他承诺,今年晚些时候会为其提供这些强大的公司级工具。

20:06 - 直面强化学习的挑战与 AI 的终极测试

  • 数据瓶颈:xAI 团队坦诚,随着模型越来越智能,为其寻找足够有“挑战性的问题”已成为新的“数据瓶颈”。
  • 现实是终极的试金石:马斯克提出了一个核心观点:“最终的推理测试是现实 (the ultimate reasoning test is reality)”。因为“物理是法则,其他一切都是建议”。AI 是否强大,最终要看它能否创造出有用的新技术、新药物,能否让火箭进入轨道。
    在这里插入图片描述

26:45 - 应用演示:在浏览器中模拟黑洞碰撞

  • 复杂的物理模拟:现场演示了 Grok-4 生成两个黑洞碰撞的可视化过程,完整覆盖了旋近 (inspiral)、合并 (merger) 和衰减 (ringdown) 三个阶段。
    在这里插入图片描述
  • 严谨的科学态度:模型在思考过程中明确指出,为了可视化,它夸大了引力波的尺度,并使用的是“后牛顿近似法 (post-Newtonian approximations)”而非完整的广义相对论计算,同时参考了本科教材和真实世界数据。

33:29 - 基准测试霸榜:全面超越所有对手

  • 商业预测能力:在现场演示中,Grok-4 Heavy 版本花了约 4.5 分钟分析了大量赔率网站和市场数据,计算出洛杉矶道奇队赢得世界大赛的概率为 21.6%
    在这里插入图片描述
  • 全方位领先:在所有关键推理基准上,Grok-4 都大幅领先于 GPT-4o、Gemini 2.5 Pro 和 Claude 3 Opus 等对手。它在 AIME (美国数学邀请赛) 上获得满分,在 GPQA (研究生水平问题解答) 等测试中也遥遥领先
    在这里插入图片描述
  • 未来的测试:马斯克预言,未来 AI 会强大到能指出“问题本身有什么毛病”,届时人类设计的考试将失去意义。

40:16 - 语音交互与 API:更自然、更开放

  • 自然的语音体验:现场演示了全新的语音模式,延迟相比之前降低了一半。新声音“Eve”展现了极其自然流畅的对话、低语乃至歌剧演唱能力。在与竞品的对比测试中,Grok 的对话更平稳、不打断。
    在这里插入图片描述

  • API 全面开放:Grok-4 和 Grok-4 Heavy 版本已通过 API 发布,为开发者提供前所未有的能力。在 ARGI 基准测试中,Grok-4 的准确率达到了 15.8%,是第二名 Claude 3 Opus 的两倍。
    在这里插入图片描述

46:53 - 赋能开发者:从商业策略到游戏创作

  • AI 运营公司:在 AI 商业模拟“Vending Bench”中,Grok-4 制定并执行了长期策略,最终创造的净资产是之前第一名的两倍,证明了其强大的商业规划能力。
    请添加图片描述
  • 4 小时制作 FPS 游戏:游戏设计师 Denny 利用 Grok-4,在 4 小时内就制作了一款第一人称射击游戏。Grok-4 最大的贡献是自动化了“资产获取 (asset sourcing)” 这一游戏开发中最繁琐的环节。
    请添加图片描述

What is next? - 通往视频生成和通用智能的加速之路

发布会最后,xAI 公布了清晰的路线图,展现了其惊人的迭代速度:

  1. 专业编码模型:一个兼具速度与智能的专业编码模型将在几周内发布。
  2. 多模态智能体:正在训练的 Version 7 基础模型将解决目前视觉理解能力偏弱的短板,带来图像、视频和音频理解能力的“阶跃式提升 (step function improvement)”。
  3. 进军视频生成:xAI 计划在未来 3-4 周内,使用超过 10 万块 GB200 芯片开始训练其视频模型。马斯克预计,今年能看到“半小时可观看的 AI 电视节目”,明年能看到“第一部可观看的 AI 电影”。
    请添加图片描述

总结

这次发布会不仅仅是一次产品更新,更是 xAI 对其技术实力和发展速度的一次全面展示。Grok-4 已经证明,AI 正在从一个“聪明的工具”转变为一个能够在各领域进行深度思考、规划和创造的“智能体”。正如马斯克所言,我们正处在“智能大爆炸 (intelligence big bang)”的奇点时刻。
在这里插入图片描述

http://www.xdnf.cn/news/1103347.html

相关文章:

  • docker宿主机修改ip后起不来问题解决
  • 前端面试专栏-算法篇:22.树结构(二叉树、B树、红黑树)
  • 游戏开发日记
  • MyBatis02-mybatis-config.xml配置文件讲解
  • 【深度探究系列(5)】:前端开发打怪升级指南:从踩坑到封神的解决方案手册
  • 基于kafka的分布式日志收集与实时监控平台(原理,框架)
  • 黑马点评系列问题之P55优惠券秒杀 快捷键问题 Ctrl+D显示不出来老师给的界面
  • 液冷智算数据中心崛起,AI算力联动PC Farm与云智算开拓新蓝海(二)
  • 前端Vue.js面试题(2)
  • 【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南
  • 飞书CEO谢欣:挑战巨头,打造AI新时代的Office
  • 20250710-2-Kubernetes 集群部署、配置和验证-网络组件存在的意义?_笔记
  • 用Netplan配置网桥bridge笔记250711
  • lodash不支持 Tree Shaking 而 lodash-es可以
  • STM32F407ZGT6天气时钟+实时温湿度显示(附源码)
  • Java结构型模式---组合模式
  • 瀚高数据库提交数据后,是否需要COMMIT(APP)
  • MyBatis 进阶:连接池、动态 SQL 与多表关联查询
  • SpringBoot 使用注解获取配置文件中的值
  • 机器学习-06(Optimization-自动调整学习率)
  • FS820R08A6P2LB——英飞凌高性能IGBT模块,驱动高效能源未来!
  • 线程通信与进程通信的区别笔记
  • Java教程:JavaWeb ---MySQL高级
  • 从语音识别到智能助手:Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记
  • Matlab裁剪降水数据:1km掩膜制作实战
  • 从Markdown到PPT:用Python打造专业演示文稿转换器
  • axios 与 fetch 的区别
  • Android 开发中插桩
  • 微服务引擎 MSE 及云原生 API 网关 2025 年 6 月产品动态
  • Java 方法重载与类的构造器(一)