当前位置：首页 > news >正文

Cyber Weekly #59

news 2025/6/10 6:34:21

赛博·新闻

1、Google Gemini 新版登顶大模型竞技场

日前，Google Gemini 2.5 Pro 宣布推出新版本「Gemini 2.5 Pro(0605)」。性能表现上，Gemini 2.5 Pro 新版在代码、推理等任务表现更强：在 Humanity’s Last Exam（人类最后的考试）中，以 21.6% 的成绩超越 OpenAI o3；在 GPQA 测试中，以 86.4% 的成绩位居榜首。大模型竞技场中，Gemini 2.5 Pro 新版在 Elo 评分上，相较于 (0506) 版本提升了 24 分（达到 1470 分），保持领先地位。据 Google 介绍，本次 (0605) 版本是基于今年 I/O 大会上公布的 (0506) 版本所构建，并且新版有望成为 Gemini 2.5 Pro 的正式稳定版「出道」。另外，Google 还给新版 2.5 Pro 进行了回答改进，目前它可以提供更富有创意且格式更优的答复。

2、PixVerse 国内版「拍我 AI」上线

6月6日，爱诗科技宣布，旗下 PixVerse 国内版「拍我 AI」正式上线。官方表示，「拍我 AI」网页端和移动端同步上线，并且支持最新发布的 V4.5 版本。据悉，爱诗科技在今年 2 月 24 日推出 PixVerse V4 版本。该版本中，能够实现智能生成视频音效、一键匹配人声台词、多种视频风格实时重绘等多种功能。据悉，PixVerse V4 的 AI 视频生成速度最快可达 5s。同时，V4 版本底模大幅度升级，拥有良好的物理规律和人物情绪表现。今年 5 月，PixVerse 更新了 V4.5 版本，支持了多达 20 种运镜方式，同时引入了多主体参考融合功能，能够将人物与背景参考图像自然融合。

网页端：https://pai.video
App 端：https://pai.video/app-download（同时「拍我 AI」上架各大应用商店）
API 开放平台：https://platform.pai.video

3、面壁智能发布全新端侧高性能模型「MiniCPM 4.0」

6月6日，面壁智能发布的小钢炮4.0模型（MiniCPM 4.0）通过系统级稀疏化技术创新实现了端侧AI性能的颠覆性突破：其8B稀疏版以仅22%训练开销超越主流大模型性能，0.5B超小模型则以2.7%训练成本实现参数减半性能翻倍；核心突破在于首创全开源系统级上下文稀疏架构，通过5%超高稀疏度设计结合自研InfLLM稀疏注意力机制（分块分区"抽查"计算）、双频换挡技术（稀疏处理长文本/稠密处理短文本）及三级火箭推理优化（含FR-Spec轻量投机采样、BitCPM 4-bit量化、ArkInfer部署框架），达成极限220倍/常规5倍加速效果，同时长文本缓存需求锐减至竞品1/4，模型体积压缩90%仍保持顶尖性能；该成果验证了"密度定律"的科学路径，依托自研CPM.cu推理框架及大模型工厂体系（含ModelTunnel高效训练、UltraClean数据筛选），已在Intel/高通/昇腾等芯片平台实现端侧部署，推动高效、安全、个性化的端侧AGI技术落地。

Github：https://github.com/openbmb/minicpm
技术报告：https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
HuggingFace：https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope：https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

4、阿里通义发布 Qwen3 模型新成员

6月6日凌晨，通义千问团队发布的Qwen3-Embedding系列模型是专为文本表征、检索与排序任务设计的全新成员，基于Qwen3基础模型训练，具备卓越的多语言理解能力；该系列涵盖0.6B至8B参数规模，在MTEB多语言榜单中以70.58分登顶（截至2025年6月），性能超越主流商业API，其核心突破在于：通过双塔结构（Embedding）和单塔结构（Reranker）的架构设计，结合三阶段训练范式（弱监督预训练→监督训练→模型融合）与创新性利用Qwen3生成动态弱监督文本对的技术，显著提升语义表征质量；同时支持100+语言与代码检索，提供表征维度自定义（MRL）和任务指令适配（Instruct Aware）两大灵活特性，可有效降低部署成本并优化特定场景表现；模型已在Hugging Face、ModelScope开源，并通过阿里云百炼提供服务，未来将持续优化训练效率并拓展多模态能力。

ModelScope：

https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

Hugging Face：

https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

GitHub：https://github.com/QwenLM/Qwen3-Embedding
技术报告：https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3_embedding_technical_report.pdf

5、Manus 新增视频生成功能

Manus最新推出的视频生成功能通过智能体任务拆解和连续拼接技术突破传统AI视频5秒时长限制，用户只需输入一个提示词（如生成15秒《山海经》主题视频），系统便自动规划场景、生成多个5秒片段并合成完整故事，实现“电影级”创作流程；实测显示生成5秒视频约消耗166积分（30秒视频约1000积分），支持与Lovart等设计工具联动，用户可基于自然语言批量编辑镜头，大幅降低制作门槛；尽管当前效果存在波动（部分片段呈现“五毛特效”感），但其分镜生成与自动剪辑能力已展现智能体协同创作的新范式，网友评价其创作自由度超越Sora，预示视频制作门槛趋近于零的未来趋势；该功能目前仅限会员使用，是Manus继图像生成、PPT制作后加速智能体生态布局的关键动作。

赛博·洞见

1、专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

阶跃星辰首席科学家张祥雨在访谈中深度剖析多模态AI发展的核心瓶颈与突破路径，指出未来2-3年将迎来两个“GPT-4时刻”：一是多模态推理的实现，通过视频数据整合思维链模式（如o1范式的Meta CoT机制），解决图文对齐不精确、生成理解割裂的难题；二是自主学习范式的突破，使模型具备环境交互与自我进化能力，摆脱当前next token prediction框架的固有缺陷——该框架因过度追求压缩率导致大模型推理能力反降（如数学跳步错误），需依赖Rule-based RL优化任务目标并激发稳定思维路径。他强调o1范式的本质在于构建图状推理结构（允许反悔/分支选择），而多模态发展的关键在于：利用视频教学数据扩充预训练中的动作空间，通过可控生成与理解协同推进实现AGI级智能；自主学习则需攻克自然语言反馈利用、内生奖励建模等挑战，为终极ASI奠定基础。

2、OpenAI 前首席科学家 Ilya 毕业演讲: AI 终将学会你能做的一切，我们该如何面对

OpenAI前联合创始人Ilya Sutskever在毕业演讲中强调人类正面临由AI引发的根本性变革时代，基于“人脑是生物计算机”的逻辑，AI终将掌握人类所有技能并替代所有工作；他呼吁以“接受现实、不纠结过去、专注改善现状”的积极心态应对挑战，指出逃避无益，必须正视AI技术爆炸性发展（预测未来3-10年AI能力将跨越式提升）及其颠覆性影响；同时警示超级智能的安全问题是人类史上最大挑战，强调确保AI真实可控、与人类目标一致是当务之急，若能成功应对将带来前所未有的巨大回报；其创办Safe Superintelligence公司的目标正是开发安全可靠的超级智能系统，体现技术先驱对AI伦理的深度关切。

3、如何做出好产品

字节跳动创始人张一鸣的产品核心哲学可概括为"用户收益必须大于操作成本定律"：产品成功的关键在于确保用户获取的价值显著超过其使用过程中的操作负担。该定律直接击碎了"兴趣标签选择""蒙层新手引导"等复杂设计（均因操作成本过高被验证失败），并解释了抖音等产品通过推荐算法降低选择成本的成功逻辑；张一鸣强调数据驱动（AB测试验证决策）与反抽象思维（拒绝模糊概念，聚焦具体功能），以科学方法替代主观直觉；同时坚持超高标准（如推荐系统持续优化至行业顶尖水平）和务实创新（集中资源支持有潜力产品），最终实现"以产品创造社会财富"的商业正循环。

4、2025年GenAI硬件北美影响力报告

报告系统梳理了GenAI消费硬件（含眼镜、陪伴机器人、耳机、挂件、戒指、口袋机等六类）在北美市场的影响力，指出中国企业在眼镜（53/70款）、陪伴机器人（20/41款）等品类中占据主导地位，美国企业则在挂件（7/18款）等类别表现突出。技术路径上，眼镜按功能分为音频型（如李未可CityAI）、拍摄型（如Ray-Ban Meta）和AR显示型（如INMO GO2），其中AR显示型技术门槛最高但未大规模商用。市场数据揭示关键趋势：Ray-Ban Meta凭借43,400条TikTok内容领跑社媒影响力；Ringconn戒指众筹达864万美元展现强融资能力；Lovot等可爱外形的陪伴机器人更受女性欢迎（女性用户占比54%）。报告强调GenAI硬件仍处早期探索阶段，多数产品未达PMF（产品市场匹配），如Aipin的失败警示技术需结合实用场景，而Meta眼镜和PLAUD挂件的尝试被视作有效方向。当前瓶颈在于现实世界反馈机制与能源供给，但GenAI硬件作为采集真实数据的入口，正加速从数字向物理世界渗透（如Waymo自动驾驶占旧金山1/3市场），预计2027-2030年将重塑白领工作方式。