当前位置：首页 > news >正文

AI一周事件（2025年6月3日-6月9日）

news 2025/6/12 21:46:01

（以下借助 DeepSeek-R1 & ChatGPT 辅助整理）

⚡ 一、大模型技术进展

DeepSeek-R1 小版本更新

该版本在三大核心能力实现突破：

推理规划能力：数学测试准确率从70%升至88%，思考深度翻倍；
- 工具调用能力：新增函数调用与JSON输出支持，接近OpenAI o1水平；
  - 编程与页面生成能力：性能已对标Claude、GPT-4级别。

观点：持续的小幅迭代与开源生态活跃度同样重要，DeepSeek 社区化运营模式证明了“快更新、广测试”对模型成熟度提升的裨益。此次升级表明中国开源模型已在关键能力上逼近美国闭源巨头，中美模型性能差距已从2023年20%缩小至接近持平（斯坦福报告称仅差0.3%），开源生态正成为技术平权的重要力量。

谷歌 Gemini “计划操作”（Scheduled Actions）上线

6月7日，谷歌面向付费用户推出 “计划操作”（Planned Actions）功能，支持用户通过语音或文字指令，让Gemini在特定时间自动执行重复性任务，如推送日历摘要、追踪赛事、生成灵感等。此前1月OpenAI已为ChatGPT推出类似功能。
观点：与 OpenAI ChatGPT 任务（Tasks）功能同质化竞争加剧，智能体即服务（Agent-as-a-Service）正成为AI助手新战场，企业级办公自动化增量需求巨大。

谷歌 DeepMind 推出智能邮件助手

6月3日，Demis Hassabis 宣布正在开发一套能“模仿用户书信风格”进行回复与管理的邮件 AI 助手。可自动分类、答复常见邮件，并辅助决策。

观点：邮件是利用场景中最贴近生产力提升入口之一，Google 通过 Agent 架构落地应用，验证“智能体即服务”（AaaS）方向的落地路径。与前述 Gemini 的“Planned Actions”一脉相承，AI 正持续渗透日常办公自动化。

Apple ML 团队发布 AI 推理可靠性研究

6月9日，Apple 在 WWDC 前夕发布论文，指出主流 LLM（如 OpenAI o1、Anthropic Claude）在定制逻辑谜题（塔汉诺伊、过河等）中的中间思维链存在一致性崩溃，虽能偶获正确解答，但推理轨迹不稳。

观点：该研究强调“可解释性”与“过程可靠性”在高风险场景（医疗、金融、自动驾驶）中的核心地位，未来可通过混合监督或全程可验证推理线路来提升系统鲁棒性。

Apple 发布 AI 推理能力研究：模型并非真正“思考”

6月9日，Apple ML 团队发布研究，指出主流大语言模型（如 OpenAI 的 o1、Anthropic 的 Claude）在特定推理任务（如河流过渡、汉诺塔）中的步骤逻辑仍不一致，尽管最终答案可能正确。这暴露出模型“思维链”仍具脆弱性。

观点：该研究提醒业界，除表面正确输出，更应聚焦推理轨迹的可靠性。对未来 AI 可解释性、安全性和系统鲁棒性具有指导意义，尤其适用于高风险场景（医疗、自动驾驶等）。

💻 二、AI算力与行业生态

Nvidia Q1 财报：数据中心收入 391 亿美元，同比+73%

截至4月27日财季，Nvidia 报告总营收 441 亿美元，同比增长69%，其中数据中心业务 391 亿美元，同比增长73%。

观点：这一业绩再度印证全球AI算力需求爆发式增长；同时，Nvidia 对华定制 B30 芯片与 H20 退而求其次策略，表明其在合规与性能之间寻求平衡。

Broadcom 发布 Tomahawk 6 网络芯片：为 AI 数据中心配套

6月3日消息，Broadcom 启动 Tomahawk 6 芯片出货，性能约为前代双倍，支持大型 GPU 集群互链互通，预设百万 GPU 规模数据中心。

观点：网络互联是大规模 AI 训练的瓶颈所在，Tomahawk 6 的面世，是算力堆叠中重要一环，标志行业已从单芯片性能竞争向端到端基础设施协调逐级演进。

🏥 三、医疗AI突破性研究

AlphaMed：极简规则强化学习实现医疗推理新范式

帝国理工学院团队在arXiv发布研究，提出仅通过最终答案对错的二元反馈（无需思维链数据），即可训练大模型完成复杂医疗推理。该方法在MedQA等六大医疗基准测试中超越GPT-4蒸馏模型，甚至部分任务表现优于Claude-3.5。

观点：该技术大幅降低高质量医疗AI训练成本，破解传统依赖专家示范的瓶颈，为发展中国家医疗AI普惠提供新路径。

💎 结语

本周AI进展凸显两大趋势：

技术民主化加速：以DeepSeek为代表的开源模型缩小国际差距，AlphaMed以低成本实现高性能医疗推理，推动AI普惠；
智能体与自动化崛起：谷歌Gemini、火山引擎大会均指向任务自动化成为下一代AI核心场景。

参考文献

DeepSeek-R1 升级登顶全球开源模型第一

谷歌Gemini上线“计划操作”功能

英伟达、博通财报超预期

AlphaMed：极简规则实现医疗推理突破

Google DeepMind 邮件助手开发

http://www.xdnf.cn/news/962227.html

相关文章：

WHAT - 组件库单入口打包和多入口打包

“液态玻璃”难解苹果AI焦虑：WWDC25背后的信任危机

自动化三维扫描检测赋能汽车铸造件高效检测

笔记操作系统复习

供应链管理-物流：自动驾驶分为几个级别/L0无自动化/L1驾驶辅助/L2部分自动化/L3有条件自动化/L4高度自动化/L5完全自动化

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

SDC命令详解：使用uniquify命令进行唯一化

菲尔斯特传感器，超声波风速风向传感器助力绿色能源发展

idea中黄色感叹号打开

RPC调用三使用代理进行服务自动注册

CppCon 2015 学习:RapidCheck Property based testing for C++

计算机基础(一)：ASCll、GB2312、GBK、Unicode、UTF-32、UTF-16、UTF-8深度解析

记录chrome浏览器的一个bug

零基础入门线性代数

上位机开发过程中的设计模式体会(2)：观察者模式和Qt信号槽机制

经典的多位gpio初始化操作

基于FPGA的PID算法学习———实现PI比例控制算法

React Native 基础语法与核心组件：深入指南

篇章三论坛系统——环境搭建

如何将数据从 iPhone 传输到笔记本电脑

ACM70V-701-2PL-TL00

CPP基础（2）

Linux 删除登录痕迹

rapidocr v3.1.0发布

什么样的登录方式才是最安全的？

高频交易技术：订单簿分析与低延迟架构——从Level 2数据挖掘到FPGA硬件加速的全链路解决方案

Numpy7——数学2（矩阵基础，线性方程基础）

看板会议如何高效进行

设计模式和设计原则回顾

React动态渲染：如何用map循环渲染一个列表(List)