AI热点周报(8.24~8.30):Grok 2.5开源,OpenAI Realtime正式商用,Meta或与OpenAI或Google合作?
名人说:博观而约取,厚积而薄发。——苏轼《稼说送张琥》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)
目录
- 一、3分钟速览版:一张表看懂本周AI大事
- 二、OpenAI:gpt-realtime 上线,语音智能终于“可落地”
- 1. 发生了什么?
- 2. 小案例:3步把客服热线接进AI
- 三、AI安全:Claude“反滥用”报告+头部联测的信号
- 1. 真实世界的三类滥用
- 2. 头部公司“联合评估”的启示
- 四、产品线升级:Gemini、VLM与多终端
- 1. Google:Gemini Live 持续迭代
- 2. Microsoft:Copilot 进入客厅屏
- 五、生态与竞争:外采模型、开放策略与“谁用谁”
- 结语
很高兴你打开了这篇博客,更多AI知识,请关注我、订阅专栏《AI知识图谱》,内容持续更新中…
大家好,我是流苏👋,今天我们一起了解一下本周的一些AI热点。
- 如果你想看简单版,下面笔者整理了3分钟速览版,放到了表格里,可以查看
一、3分钟速览版:一张表看懂本周AI大事
日期 | 机构/产品 | 动作 | 一句话影响 |
---|---|---|---|
8/28 | OpenAI Realtime API / gpt-realtime | 正式商用,支持SIP电话、远程MCP工具、图片输入,并降价 | 语音座席不再停留在Demo,进入可规模落地阶段。 (OpenAI) |
8/27 | Anthropic Claude | 发布AI滥用威胁情报与典型案例(勒索、朝鲜远程用工诈骗、RaaS) | 安全攻防进入“对抗真实犯罪场景”的新阶段。 (Anthropic) |
8/27 | OpenAI × Anthropic | 联合公布一次安全评估做法与结果 | 头部公司在评测与治理上出现协作苗头。 (OpenAI) |
8/28 | Microsoft Copilot | 上线三星2025款TV/显示器,客厅可直接呼叫AI助理 | AI从电脑和手机“走进客厅屏”。 (The Verge, Forbes) |
8/30 | Meta | 与员工讨论是否在产品中调用OpenAI或Google的模型 | 大厂更务实:在“自研/外采”之间动态取舍。 (Reuters) |
8/24 | xAI Grok 2.5 | 部分开源/算法公开,持续推进开放路线 | 开源/公开策略成为差异化竞争点。 (TechCrunch) |
二、OpenAI:gpt-realtime 上线,语音智能终于“可落地”
1. 发生了什么?
OpenAI宣布 Realtime API 全面可用,并推出新的语音到语音模型 gpt-realtime
。要点包括:
- 通话级能力:原生支持SIP,可把AI座席接入公网电话/PBX/座机;
- 工具扩展:会话内支持远程 MCP(Model Context Protocol)服务器,像“热插拔”一样给座席挂接新工具;
- 多模态输入:语音会话里可以补充图片/截图,让AI基于“看得见”的内容回答;
- 成本与时延:相较旧版预览,价格下降并强调低时延,更贴近生产;
- 适配异步函数调用,长耗时工具不再打断对话。 (OpenAI)
2. 小案例:3步把客服热线接进AI
(1)把现有电话系统的SIP信息写入会话配置;
(2)在会话中注册业务工具(如check_order
、refund
),也可通过MCP把外部系统挂进来;
(3)在system
里定规则(话术/合规)+可复用的Prompt模板。
这样,一个能打电话、会查系统、懂流程的AI坐席就能在真实客服里跑起来了。上述能力均来自本次Realtime的原生支持。 (OpenAI)
三、AI安全:Claude“反滥用”报告+头部联测的信号
1. 真实世界的三类滥用
Anthropic发布8月安全情报:
- “Agent化勒索”:攻击者用 Claude Code 自动化内网侦察、数据窃取与勒索话术生成;
- 朝鲜远程用工诈骗:用大模型伪造身份、通过笔试、“保住岗位”;
- RaaS(勒索即服务):低技术门槛的攻击者在AI辅助下售卖勒索套件。
针对这些,Anthropic通报了封禁与检测器更新,并与相关部门共享技术指标。 (Anthropic)
补充:安全社区亦有第三方报道对这些滥用手法进行归纳,侧面印证其广度与严重性。(BleepingComputer)
2. 头部公司“联合评估”的启示
OpenAI与Anthropic公开了一次联合安全评估的做法和经验,讨论了如何在“边发布、边治理”的节奏里,形成跨公司协作的评测与基线。
对行业意味着:不只是“各家自测”,而是共享评估思路与对抗样本,把“安全红线”进一步社会化。 (OpenAI)
四、产品线升级:Gemini、VLM与多终端
1. Google:Gemini Live 持续迭代
谷歌本周更新了 Gemini Live 的页面与能力说明,强调实时语音对话的稳定性/隐私与更多可用平台,并与安卓生态应用做打通;
开发者面向的图像创建/编辑(如 Gemini 2.5 Flash Image)继续推进。
对于用户而言,语音+视觉的一体化交互在手机端与Web端都更顺手了。 (blog.google, Google DeepMind)
2. Microsoft:Copilot 进入客厅屏
微软与三星宣布:Copilot 上线2025款电视与智能显示器,支持语音互动、内容推荐与“剧情回顾”等场景。AI第一次以“常驻形象”进入客厅大屏,形态从App升级为“家庭数字伙伴”。 (The Verge, Forbes)
五、生态与竞争:外采模型、开放策略与“谁用谁”
- Meta在内部讨论是否在部分产品中直接调用OpenAI/Google模型。这释放了一个信号:当体验/时效优先时,大厂也可能在自研与外采间切换,以达到“最好用”的目标。 (Reuters)
- xAI在8/24进一步公开Grok 2.5相关资源/代码,延续开放姿态,加速社区复现与评测。对比“闭源领先”的路线,开放框架有利于快速迭代与人才吸引。 (TechCrunch)
结语
这一周的主线很清晰:语音智能从“炫技”走向“可用”,安全对抗从“规则”走向“实战”,生态竞争从“闭门造车”走向“灵活拼装”。对团队而言,一个能打电话、会用工具、可落地的AI座席与一套能对抗真实滥用的安全基线,就是现在值得投入的两件事。
随着AI的发展,更贴近人类日常使用的模型会越来越多,相应着随着AI能力的提升,AI的安全性也需随之提升。
参考与来源(节选)
- OpenAI:gpt-realtime与Realtime API更新、SIP/MCP/图片输入、定价与可用性。(OpenAI)
- OpenAI × Anthropic:联合安全评估做法与结论。(OpenAI)
- Anthropic:AI滥用威胁情报(8月)与三类真实案例。(Anthropic)
- Microsoft × Samsung:Copilot上电视/显示器,媒体报道与落地细节。(The Verge, Forbes)
- Meta:讨论外部模型接入(路透)。(Reuters)
- xAI:Grok 2.5开放动作(TechCrunch,另有路透跟进)。(TechCrunch)
- Google/DeepMind:Gemini Live与2.5 Flash Image能力页面。(blog.google, Google DeepMind)
- 政策环境:美国州级AI立法加速(Investopedia汇总)。(Investopedia)
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)