【AI News | 20250514】每日AI进展
AI Repos
1、ocr-workbench
OCR Workbench 是一款使用 AI(Gemini 或 Tesseract)进行文档光学字符识别(OCR)并生成 Markdown 或 HTML 转录的开源 Web 应用。它专为处理需要大量编辑的 OCR 文本而设计,特别是老旧文档。该工具提供页面级文本提取、Markdown 编辑器、全局替换、图像与文本并排查看、去连字符、查找/替换和导出功能。用户需自带 Gemini 或 Claude API 密钥。OCR Workbench 采用 Ionic/Angular 开发,支持浏览器内数据存储,并提供便捷的 PDF 转图像工作流。
2、GPT
GPT From Scratch 是一个 PyTorch 实现,旨在从头开始训练 GPT 风格的 Transformer 语言模型。它具备现代训练优化技术,包括 Flash Attention 和混合精度训练,并提供自定义 BPE 分词器和推理能力。该项目结构清晰,文档详尽,引导用户从 LLM 基础概念到数据准备、分词、模型架构、训练、推理和评估。它支持 FineWeb-Edu 等数据集,并可与 Hugging Face Hub 集成,方便模型共享。
3、mergekit
Mergekit 是一个开源工具包,用于合并预训练语言模型,支持 Llama、Mistral、GPT-NeoX 等多种模型架构。它采用外核方法,可在资源受限的环境下进行复杂的模型合并,支持 CPU 或低至 8GB VRAM 的 GPU 加速。Mergekit 提供多种合并算法,包括加权平均、TiMerge、DARE、Slerp、线性插值、LoRA 提取和 MoE 合并等,并支持多阶段合并和原始 PyTorch 模型合并。该工具包旨在结合不同模型的优势,实现能力迁移和性能提升,同时保持与单模型相当的推理成本。
AI News
1、清华携手面壁智能开源 AgentCPM-GUI,首个中文 APP 专精 GUI 智能体
清华大学 THUNLP 实验室与面壁智能联合开源了 AgentCPM-GUI,这是全球首个针对中文 APP 精细优化的 GUI 智能体,基于 MiniCPM-V 模型构建,参数达 8B。该智能体能够精准识别手机屏幕界面元素并自动执行用户指令,覆盖高德地图、哔哩哔哩、小红书等 30 余个主流中文应用。AgentCPM-GUI 通过模型压缩技术实现了高效的端侧推理,平均动作长度仅 9.7 个 Token,可在普通安卓设备上流畅运行。该项目的开源将极大地推动安卓生态的智能化升级,为中文 APP 的用户体验带来革新。
2、PixVerse V4.5 发布:电影级镜头控制与多图融合,5 秒速成好莱坞大片
PixVerse 发布 V4.5 视频模型,新增 20 多项电影级镜头控制和多图参考功能,显著提升视频生成质量和创作自由度。用户可通过提示词精确控制运镜,利用 Fusion 模式融合多张图像元素,并优化了复杂动作的处理能力。V4.5 在生成速度和细节表现上均有提升,并支持多种语言界面和音效同步。该模型免费版本已向全球开放,高级功能需订阅,API 可供开发者集成,有望成为 AI 视频创作领域的领先者。
3、阶跃星辰开源 4.8B 参数 3D 大模型 Step1X-3D,注重高保真与可控性
阶跃星辰发布并开源了 3D 大模型 Step1X-3D,总参数量 4.8B,包含几何和纹理模块。该模型通过高质量数据集和 3D 原生两阶段架构,实现了高保真、结构可靠且纹理一致的 3D 内容生成。Step1X-3D 创新性地解耦了几何与纹理表征,并引入混合 VAE-DiT 架构和 SD-XL 定制优化,同时兼容 2D 控制技术如 LoRA 微调,显著提升了生成的可控性与易用性。在自建综合测试中,Step1X-3D 在内容语义一致性等关键指标上表现出色,为开源社区提供了强大的 3D 生成方案。
4、字节跳动发布 20B 参数 Seed1.5-VL 多模态模型,实现 38 项 SOTA
字节跳动发布了最新的视觉-语言多模态模型 Seed1.5-VL,激活参数仅 20B,但在 60 个公开评测基准中,于 38 个任务上取得了 SOTA 表现,尤其在视频理解、视觉推理和多模态智能体能力方面领先。该模型推理成本低廉,已在火山引擎全面开放 API。Seed1.5-VL 通过上传图片能识别产品并计算价格,在复杂图形推理中也展现出强大能力。该模型基于超过 3T token 的多模态数据预训练,由 SeedViT、MLP 适配器和 Seed1.5-LLM 构成。
5、腾讯发布 AI 编程助手 CodeBuddy,深度整合微信小程序开发工具
腾讯推出了代码助手插件 CodeBuddy 3.0,专注于提升微信小程序开发效率,并可在多种开发工具中使用。CodeBuddy 创新性地引入 Craft 模式,使 AI 能自主理解用户需求并完成多文件代码生成和改写。作为国内首个支持 MCP 协议的编程助手,CodeBuddy 集成了 DeepSeek R1/V3 和 HunYuan-Turbo S 双模型,支持代码补全、项目理解和单元测试等功能。该插件与微信开发者工具深度整合,方便开发者在熟悉的环境中快速创建和调试小程序,并兼容游戏开发、微信支付等多种功能。
6、通义千问 QwenChat 免费开放「深入研究」Deep Research 功能
通义千问 QwenChat 推出了免费的智能助理系统“Deep Research”,旨在帮助用户梳理复杂问题,快速生成条理清晰、数据可信的研究报告。用户只需一句提示,Deep Research 即可规划研究任务,综合分析大量在线信息,进行多步骤搜索和总结,最终生成附有引用来源的详尽报告,将过去数小时的任务缩短至十几分钟。该功能深度融合了 Qwen 模型推理、Agent 和长上下文窗口能力,实现了从理解需求到交付成果的研究闭环,所有用户均可在 QwenChat 上免费体验。