当前位置：首页 > news >正文

【AI News | 20250604】每日AI进展

news 2025/6/6 18:26:20

AI Repos

1、jaaz
Jaaz是一款免费开源的AI设计代理，作为Lovart的本地替代品，它能实现图像、海报、故事板的设计、编辑和生成。Jaaz集成了LLM，可智能生成提示并批量生成图像，支持Ollama、Stable Diffusion等本地及API模型。用户可通过聊天编辑图像，实现对象移除、风格转换等功能。它提供创意画布，并计划支持视频生成。Jaaz可在macOS和Windows上使用，支持Claude、OpenAI、Gemini等API，或通过Ollama实现100%免费本地使用。
在这里插入图片描述

2、agentic-doc
LandingAI发布Agentic Document Extraction Python库，该库封装了Agentic Document Extraction API，能从复杂文档（PDF、图片、URL）中提取结构化数据，并返回分层JSON及元素位置。它支持百页以上长文档处理、自动重试、并发和限速，并提供可视化调试工具。该库简化了API调用，实现了大型文件自动分割并行处理，具备错误处理和批处理能力，极大地提升了文档数据提取的效率和准确性，适用于Python 3.9-3.12版本。

3、memvid
Memvid是一款创新的AI记忆管理解决方案，通过将文本数据编码成视频文件，实现了数百万文本块的闪电般语义搜索和亚秒级检索。它比传统向量数据库更节省RAM和存储空间，能将知识库压缩为紧凑的视频文件。Memvid具备视频数据库、语义搜索、内置聊天、PDF支持、超快检索和高效存储等核心功能，且支持离线使用和多种LLM。它适用于数字图书馆、教育内容、新闻档案、企业知识库、科研论文和个人笔记等多种场景。

AI News

1、Manus推出文生视频功能，挑战Sora，加速AI视频创作普及
AI初创公司Manus近日推出“文生视频”功能，允许用户通过文本指令快速生成视频，目前已向Basic、Plus和Pro会员开放。此举旨在与OpenAI的Sora竞争，Sora同样提供文生视频服务，且需付费使用。Manus的Pro会员月费为199美元，与Sora价格相近。Manus的目标是满足用户快速生成高质量视频的需求，并计划未来向所有用户开放此功能，以推动AI视频创作的普及和行业发展，为内容创作者提供高效工具。

2、松下发布多模态生成AI “OmniFlow”，实现文本、图像、音频自由转换
松下联合研发出“OmniFlow”多模态生成AI，其创新之处在于能够实现文本、图像、音频之间的“任意对任意”自由转换。该技术通过灵活结合不同数据格式的生成AI，即便在小样本情况下也能学习高精度模型，显著降低了传统多模态AI所需的大量数据采集成本。OmniFlow在文本转图像和文本转音频任务中表现出色，训练数据量可减少至1/60。这项技术未来有望应用于工厂和生活等多个领域，为客户带来便利。

3、PlayDiffusion开源，实现语音“局部修改”且不留痕迹
Play AI开源发布了基于扩散模型的语音编辑工具PlayDiffusion，专为语音局部修改设计。该模型颠覆了传统文本转语音系统需重生成整段音频的模式，允许用户直接替换、删除或调整音频中的特定部分，同时保持其他未修改部分的一致性，实现“所听即所得”的无痕编辑。PlayDiffusion能智能调整节奏、语调和音色，听感自然。它还可作为高性能非自回归TTS模型，推理速度提升50倍，适用于播客制作、AI配音等场景，标志着语音生成领域向“精确、灵活、自然”转型。

4、Claude Code将向Pro用户开放，降低AI编码门槛
Anthropic的AI编码助手Claude Code，此前仅限Max订阅或API用户。近期网络动态显示，Anthropic计划将其开放给每月20美元的Claude Pro用户，大幅降低使用门槛。Claude Code以其强大的代码库理解和终端集成能力著称，支持代码重构、调试等。此举将吸引更多开发者，加速AI辅助编码的普及，并加剧AI编码工具市场的竞争。Pro用户将获得定额使用权限，其核心功能预计保持不变。

5、谷歌推出AI Edge Gallery，实现智能手机离线运行AI模型
谷歌低调发布实验性应用Google AI Edge Gallery，利用LiteRT技术使智能手机能离线运行Hugging Face平台上的开源AI模型，支持图像生成、文本处理等功能。此举提升了数据隐私和处理速度，是本地化AI的重要突破。该应用目前支持Android设备，通过GitHub分发，性能媲美早期云端模型。AI Edge Gallery的推出标志着谷歌在边缘AI领域的战略布局，有望重新定义AI应用部署方式，加速AI在无网络连接地区的普及。

6、Resemble AI开源语音克隆模型ChatterBox AI，性能超越ElevenLabs
Resemble AI发布了首款开源文本转语音模型ChatterBox，该模型具备卓越的零样本语音克隆、情绪控制和超低延迟特性。ChatterBox在盲测中表现优于ElevenLabs，且支持情绪夸张调节，适用于多种应用场景。其内置的PerTh神经水印技术旨在解决伦理问题。ChatterBox的开源发布标志着语音克隆技术的民主化，尽管存在滥用风险，但其MIT许可证和社区规范呼吁旨在平衡开放创新与负责任使用。

7、Exa联手OpenRouter，400+AI模型解锁实时网络搜索能力
Exa与OpenRouter合作，为超过400种大语言模型（LLMs）提供实时网络搜索功能，显著提升AI模型的信息获取能力。通过RAG技术，模型可动态获取最新网络信息，解决传统LLMs知识更新局限。开发者仅需简单配置即可让模型调用Exa的搜索结果，广泛应用于聊天机器人、学术研究和商业分析等场景。此举降低开发门槛，预示AI与网络数据深度融合的趋势，使AI从“静态知识库”转变为“动态信息枢纽”。

查看全文

http://www.xdnf.cn/news/877393.html