当前位置: 首页 > news >正文

AI一周事件(2025年6月3日-6月9日)

(以下借助 DeepSeek-R1 & ChatGPT 辅助整理) 

⚡ 一、大模型技术进展

DeepSeek-R1 小版本更新

该版本在三大核心能力实现突破:

  •         推理规划能力:数学测试准确率从70%升至88%,思考深度翻倍;
    •         工具调用能力:新增函数调用与JSON输出支持,接近OpenAI o1水平;
      •         编程与页面生成能力:性能已对标Claude、GPT-4级别。

观点:持续的小幅迭代与开源生态活跃度同样重要,DeepSeek 社区化运营模式证明了“快更新、广测试”对模型成熟度提升的裨益。此次升级表明中国开源模型已在关键能力上逼近美国闭源巨头,中美模型性能差距已从2023年20%缩小至接近持平(斯坦福报告称仅差0.3%),开源生态正成为技术平权的重要力量。

谷歌 Gemini “计划操作”(Scheduled Actions)上线

6月7日,谷歌面向付费用户推出 “计划操作”(Planned Actions)功能,支持用户通过语音或文字指令,让Gemini在特定时间自动执行重复性任务,如推送日历摘要、追踪赛事、生成灵感等。此前1月OpenAI已为ChatGPT推出类似功能。
观点:与 OpenAI ChatGPT 任务(Tasks)功能同质化竞争加剧,智能体即服务(Agent-as-a-Service)正成为AI助手新战场,企业级办公自动化增量需求巨大。

谷歌 DeepMind 推出智能邮件助手

6月3日,Demis Hassabis 宣布正在开发一套能“模仿用户书信风格”进行回复与管理的邮件 AI 助手。可自动分类、答复常见邮件,并辅助决策。

观点:邮件是利用场景中最贴近生产力提升入口之一,Google 通过 Agent 架构落地应用,验证“智能体即服务”(AaaS)方向的落地路径。与前述 Gemini 的“Planned Actions”一脉相承,AI 正持续渗透日常办公自动化。

Apple ML 团队发布 AI 推理可靠性研究

6月9日,Apple 在 WWDC 前夕发布论文,指出主流 LLM(如 OpenAI o1、Anthropic Claude)在定制逻辑谜题(塔汉诺伊、过河等)中的中间思维链存在一致性崩溃,虽能偶获正确解答,但推理轨迹不稳。

观点:该研究强调“可解释性”与“过程可靠性”在高风险场景(医疗、金融、自动驾驶)中的核心地位,未来可通过混合监督或全程可验证推理线路来提升系统鲁棒性。

Apple 发布 AI 推理能力研究:模型并非真正“思考”

6月9日,Apple ML 团队发布研究,指出主流大语言模型(如 OpenAI 的 o1、Anthropic 的 Claude)在特定推理任务(如河流过渡、汉诺塔)中的步骤逻辑仍不一致,尽管最终答案可能正确。这暴露出模型“思维链”仍具脆弱性。

观点:该研究提醒业界,除表面正确输出,更应聚焦推理轨迹的可靠性。对未来 AI 可解释性、安全性和系统鲁棒性具有指导意义,尤其适用于高风险场景(医疗、自动驾驶等)。


💻 二、AI算力与行业生态

Nvidia Q1 财报:数据中心收入 391 亿美元,同比+73%

截至4月27日财季,Nvidia 报告总营收 441 亿美元,同比增长69%,其中数据中心业务 391 亿美元,同比增长73%。

观点:这一业绩再度印证全球AI算力需求爆发式增长;同时,Nvidia 对华定制 B30 芯片与 H20 退而求其次策略,表明其在合规与性能之间寻求平衡。

Broadcom 发布 Tomahawk 6 网络芯片:为 AI 数据中心配套

6月3日消息,Broadcom 启动 Tomahawk 6 芯片出货,性能约为前代双倍,支持大型 GPU 集群互链互通,预设百万 GPU 规模数据中心。

观点:网络互联是大规模 AI 训练的瓶颈所在,Tomahawk 6 的面世,是算力堆叠中重要一环,标志行业已从单芯片性能竞争向端到端基础设施协调逐级演进。


🏥 三、医疗AI突破性研究

AlphaMed:极简规则强化学习实现医疗推理新范式

帝国理工学院团队在arXiv发布研究,提出仅通过最终答案对错的二元反馈(无需思维链数据),即可训练大模型完成复杂医疗推理。该方法在MedQA等六大医疗基准测试中超越GPT-4蒸馏模型,甚至部分任务表现优于Claude-3.5。

观点:该技术大幅降低高质量医疗AI训练成本,破解传统依赖专家示范的瓶颈,为发展中国家医疗AI普惠提供新路径。


💎 结语

本周AI进展凸显两大趋势:

  • 技术民主化加速:以DeepSeek为代表的开源模型缩小国际差距,AlphaMed以低成本实现高性能医疗推理,推动AI普惠;
  • 智能体与自动化崛起:谷歌Gemini、火山引擎大会均指向任务自动化成为下一代AI核心场景。


参考文献

DeepSeek-R1 升级登顶全球开源模型第一

谷歌Gemini上线“计划操作”功能

英伟达、博通财报超预期

AlphaMed:极简规则实现医疗推理突破

Google DeepMind 邮件助手开发

http://www.xdnf.cn/news/962227.html

相关文章:

  • WHAT - 组件库单入口打包和多入口打包
  • “液态玻璃”难解苹果AI焦虑:WWDC25背后的信任危机
  • 自动化三维扫描检测赋能汽车铸造件高效检测
  • 笔记 操作系统复习
  • 供应链管理-物流:自动驾驶分为几个级别/L0无自动化/L1驾驶辅助/L2部分自动化/L3有条件自动化/L4高度自动化/L5完全自动化
  • 云原生核心技术 (7/12): K8s 核心概念白话解读(上):Pod 和 Deployment 究竟是什么?
  • SDC命令详解:使用uniquify命令进行唯一化
  • 菲尔斯特传感器,超声波风速风向传感器助力绿色能源发展
  • idea中黄色感叹号打开
  • RPC调用三 使用代理进行服务自动注册
  • CppCon 2015 学习:RapidCheck Property based testing for C++
  • 计算机基础(一):ASCll、GB2312、GBK、Unicode、UTF-32、UTF-16、UTF-8深度解析
  • 记录chrome浏览器的一个bug
  • 零基础入门 线性代数
  • 上位机开发过程中的设计模式体会(2):观察者模式和Qt信号槽机制
  • 经典的多位gpio初始化操作
  • 基于FPGA的PID算法学习———实现PI比例控制算法
  • React Native 基础语法与核心组件:深入指南
  • 篇章三 论坛系统——环境搭建
  • 如何将数据从 iPhone 传输到笔记本电脑
  • ACM70V-701-2PL-TL00
  • CPP基础(2)
  • Linux 删除登录痕迹
  • rapidocr v3.1.0发布
  • 什么样的登录方式才是最安全的?
  • 高频交易技术:订单簿分析与低延迟架构——从Level 2数据挖掘到FPGA硬件加速的全链路解决方案
  • Numpy7——数学2(矩阵基础,线性方程基础)
  • 看板会议如何高效进行
  • 设计模式和设计原则回顾
  • React动态渲染:如何用map循环渲染一个列表(List)