当前位置: 首页 > news >正文

【AI News | 20250604】每日AI进展

AI Repos

1、jaaz
Jaaz是一款免费开源的AI设计代理,作为Lovart的本地替代品,它能实现图像、海报、故事板的设计、编辑和生成。Jaaz集成了LLM,可智能生成提示并批量生成图像,支持Ollama、Stable Diffusion等本地及API模型。用户可通过聊天编辑图像,实现对象移除、风格转换等功能。它提供创意画布,并计划支持视频生成。Jaaz可在macOS和Windows上使用,支持Claude、OpenAI、Gemini等API,或通过Ollama实现100%免费本地使用。
在这里插入图片描述

2、agentic-doc
LandingAI发布Agentic Document Extraction Python库,该库封装了Agentic Document Extraction API,能从复杂文档(PDF、图片、URL)中提取结构化数据,并返回分层JSON及元素位置。它支持百页以上长文档处理、自动重试、并发和限速,并提供可视化调试工具。该库简化了API调用,实现了大型文件自动分割并行处理,具备错误处理和批处理能力,极大地提升了文档数据提取的效率和准确性,适用于Python 3.9-3.12版本。

3、memvid
Memvid是一款创新的AI记忆管理解决方案,通过将文本数据编码成视频文件,实现了数百万文本块的闪电般语义搜索和亚秒级检索。它比传统向量数据库更节省RAM和存储空间,能将知识库压缩为紧凑的视频文件。Memvid具备视频数据库、语义搜索、内置聊天、PDF支持、超快检索和高效存储等核心功能,且支持离线使用和多种LLM。它适用于数字图书馆、教育内容、新闻档案、企业知识库、科研论文和个人笔记等多种场景。

AI News

1、Manus推出文生视频功能,挑战Sora,加速AI视频创作普及
AI初创公司Manus近日推出“文生视频”功能,允许用户通过文本指令快速生成视频,目前已向Basic、Plus和Pro会员开放。此举旨在与OpenAI的Sora竞争,Sora同样提供文生视频服务,且需付费使用。Manus的Pro会员月费为199美元,与Sora价格相近。Manus的目标是满足用户快速生成高质量视频的需求,并计划未来向所有用户开放此功能,以推动AI视频创作的普及和行业发展,为内容创作者提供高效工具。

2、松下发布多模态生成AI “OmniFlow”,实现文本、图像、音频自由转换
松下联合研发出“OmniFlow”多模态生成AI,其创新之处在于能够实现文本、图像、音频之间的“任意对任意”自由转换。该技术通过灵活结合不同数据格式的生成AI,即便在小样本情况下也能学习高精度模型,显著降低了传统多模态AI所需的大量数据采集成本。OmniFlow在文本转图像和文本转音频任务中表现出色,训练数据量可减少至1/60。这项技术未来有望应用于工厂和生活等多个领域,为客户带来便利。

3、PlayDiffusion开源,实现语音“局部修改”且不留痕迹
Play AI开源发布了基于扩散模型的语音编辑工具PlayDiffusion,专为语音局部修改设计。该模型颠覆了传统文本转语音系统需重生成整段音频的模式,允许用户直接替换、删除或调整音频中的特定部分,同时保持其他未修改部分的一致性,实现“所听即所得”的无痕编辑。PlayDiffusion能智能调整节奏、语调和音色,听感自然。它还可作为高性能非自回归TTS模型,推理速度提升50倍,适用于播客制作、AI配音等场景,标志着语音生成领域向“精确、灵活、自然”转型。

4、Claude Code将向Pro用户开放,降低AI编码门槛
Anthropic的AI编码助手Claude Code,此前仅限Max订阅或API用户。近期网络动态显示,Anthropic计划将其开放给每月20美元的Claude Pro用户,大幅降低使用门槛。Claude Code以其强大的代码库理解和终端集成能力著称,支持代码重构、调试等。此举将吸引更多开发者,加速AI辅助编码的普及,并加剧AI编码工具市场的竞争。Pro用户将获得定额使用权限,其核心功能预计保持不变。

5、谷歌推出AI Edge Gallery,实现智能手机离线运行AI模型
谷歌低调发布实验性应用Google AI Edge Gallery,利用LiteRT技术使智能手机能离线运行Hugging Face平台上的开源AI模型,支持图像生成、文本处理等功能。此举提升了数据隐私和处理速度,是本地化AI的重要突破。该应用目前支持Android设备,通过GitHub分发,性能媲美早期云端模型。AI Edge Gallery的推出标志着谷歌在边缘AI领域的战略布局,有望重新定义AI应用部署方式,加速AI在无网络连接地区的普及。

6、Resemble AI开源语音克隆模型ChatterBox AI,性能超越ElevenLabs
Resemble AI发布了首款开源文本转语音模型ChatterBox,该模型具备卓越的零样本语音克隆、情绪控制和超低延迟特性。ChatterBox在盲测中表现优于ElevenLabs,且支持情绪夸张调节,适用于多种应用场景。其内置的PerTh神经水印技术旨在解决伦理问题。ChatterBox的开源发布标志着语音克隆技术的民主化,尽管存在滥用风险,但其MIT许可证和社区规范呼吁旨在平衡开放创新与负责任使用。

7、Exa联手OpenRouter,400+AI模型解锁实时网络搜索能力
Exa与OpenRouter合作,为超过400种大语言模型(LLMs)提供实时网络搜索功能,显著提升AI模型的信息获取能力。通过RAG技术,模型可动态获取最新网络信息,解决传统LLMs知识更新局限。开发者仅需简单配置即可让模型调用Exa的搜索结果,广泛应用于聊天机器人、学术研究和商业分析等场景。此举降低开发门槛,预示AI与网络数据深度融合的趋势,使AI从“静态知识库”转变为“动态信息枢纽”。

http://www.xdnf.cn/news/877393.html

相关文章:

  • Markdown基础(1.2w字)
  • OPC UA 知识概述
  • 行业年终工作总结汇报PPT模版分享
  • 并发编程的问题与管程
  • LangChain深度解析:LLM应用开发利器
  • Redis常见使用场景解析
  • 【C语言个数最大最多】2022-4-1
  • 网络攻防技术十二:社会工程学
  • Mysql选择合适的字段创建索引
  • Java Lombok @Data 注解用法详解
  • 量子通信:从科幻走向现实的未来通信技术
  • 四、Sqoop 导入表数据子集
  • 使用C++调用python库
  • 东西方艺术的对话:彰显中国传统艺术之美与价值
  • 主流Agent开发平台学习笔记:扣子罗盘coze loop 功能拆解
  • Vue插件
  • 租物理服务器,如何避开 “高价陷阱”
  • MES管理系统的核心数据采集方式有哪些
  • Linux 环境下 PPP 拨号的嵌入式开发实现
  • CMake在VS中使用远程调试
  • python实现合并多个dot文件
  • linux系统--iptables实战案例
  • 在本地电脑中部署阿里 Qwen3 大模型及连接到 Elasticsearch
  • if(!p)等价于 if(p==0)
  • 【学习笔记】Python金融基础
  • 猎板硬金镀层厚度:新能源汽车高压系统的可靠性基石
  • 压测软件-Jmeter
  • socket是什么
  • SQL进阶之旅 Day 14:数据透视与行列转换技巧
  • 综合案例:斗地主