当前位置: 首页 > news >正文

【AI News | 20250605】每日AI进展

AI Repos

1、chatgpt-adapter
“ChatGPT Adapter”是一个创新服务,旨在将 Coze 国际版、New Bing Copilot、Cursor Editor、DeepSeek 等多种 AI 聊天服务的逆向接口适配为 OpenAI API 标准接口。该项目支持高速流式输出和多轮对话,并与 ChatGPT 接口完全兼容,极大地简化了开发者在不同 AI 平台间进行集成的复杂性。它提供了详细的安装和使用指南,包括 Go 命令、Docker 启动及 systemctl 自启动配置,方便用户快速部署。该工具强调仅供测试学习,禁止商业用途。
在这里插入图片描述

2、daily-arXiv-ai-enhanced
“arXiv Daily AI Enhanced”是一个开源工具,它能每日自动抓取 arXiv 论文并使用大型语言模型(LLM)进行摘要。用户只需 Fork 该仓库,并在 GitHub Actions 中配置API 密钥、ArXiv 论文类别、摘要语言、LLM 模型名称及 Git 信息等 Secrets 和 Variables,即可定制化每日论文摘要推送。该工具默认抓取 cs.CV、cs.GR 和 cs.CL 类别论文并用 DeepSeek 生成中文摘要,极大方便了科研人员追踪最新论文。

3、dedoc
Dedoc 是一个开源的通用系统,旨在将各类文档转换为统一的输出格式,并自动提取其逻辑结构、内容(包括表格、文本格式)和元数据。它支持 DOC/DOCX、PDF、HTML、图像、TXT 等多种半结构化和非结构化数据格式。Dedoc 采用 Python 实现,能够自动识别文档结构、提取文本格式特征,并支持处理扫描文档中的表格和文本校正。该系统可作为独立模块集成到文档分析流程中,尤其适用于信息分析、信息泄露监控和自然语言处理等应用。它提供 Docker 部署和 Pip 安装选项,方便开发者使用。
在这里插入图片描述

4、Paper2Code
Paper2Code 是一个创新的多 Agent LLM 系统,旨在自动化将机器学习领域的科学论文转化为可运行的代码仓库。该系统遵循规划、分析和代码生成三阶段流水线,每个阶段由专门的 AI Agent 处理,确保生成高质量且忠实于论文内容的实现。Paper2Code 在 Paper2Code 和 PaperBench 基准测试中均超越了现有强劲基线。它支持使用 OpenAI API 或 vLLM 搭配开源模型,并提供了从 PDF 到 JSON 的转换工具,以及详尽的模型评估方法,极大地简化了从研究到实现的流程。
在这里插入图片描述

AI News

1、Luma Labs 发布 Modify Video:AI 视频后期一键改风格、换场景
Luma Labs 近日推出创新 AI 视频编辑工具 Modify Video,基于其强大的 Dream Machine 平台和 Ray2 模型。这款工具通过简单的文本提示,即可实现视频内容的深度改造,包括风格重塑、场景替换、角色调整等,显著降低了传统视频制作的复杂性和成本。Modify Video 凭借 Ray2 模型在动作流畅性、面部动画和时间一致性方面的优势,超越了竞品。它不仅为内容创作者和电影制作人提供了前所未有的灵活性,也预示着 AI 视频技术将进入一个全新的普及阶段,极大地激发全球创意潜力。

2、Gemini 2.5 版本发布原生音频功能,AI 对话更自然
谷歌近日更新 Gemini 2.5 版本,引入了原生的音频理解和生成功能,显著提升了人机交互的自然度。新版本支持实时音频对话,能够识别语调、口音及非语言声音,并实现低延迟的流畅交流,用户还可通过自然语言控制对话风格。此外,Gemini 2.5 的文本转语音技术也得到突破,用户可精确控制语音的风格、语调和情感。为确保 AI 生成音频的透明性,所有输出均嵌入 SynthID 水印。这些功能为开发者提供了构建更具互动性应用的新能力。

3、微软推出开源 AI 助手 Athena,提升 Teams 工作效率
微软正式发布开源 AI 助手 Athena,并将其整合至 Teams 应用,旨在显著优化产品开发流程。Athena 能够智能识别团队下一步工作,协助用户在 Teams 内直接完成代码审查、工作项管理和安全检查等重复性任务,从而避免频繁切换应用。该工具已在微软内部2000多名工程师中投入使用,证明能有效提升开发速度和代码质量,并帮助团队提早发现潜在漏洞,加速产品交付周期,让开发者更专注于创新。

4、Jaaz 开源 AI 设计 Agent 横空出世:一键批量生成图像,创意生产从此起飞
Jaaz 是一款全新的开源 AI 设计 Agent,旨在通过简单的 API 配置实现自动化批量图像生成,为创意设计领域带来突破。用户只需配置大型语言模型(LLM)API 和图像生成 API,即可高效生成大量视觉内容,尤其适用于广告、社交媒体和产品原型开发。尽管目前在 API 支持方面存在局限性,如不支持所有主流图像模型和视频生成,但其开源特性和社区驱动的开发模式预示着巨大的未来潜力,有望通过不断完善成为全能型创意平台。

5、Firecrawl /search API 发布!一键搜索+抓取,AI 数据处理进入新时代
Firecrawl 近日发布了革命性的 /search API,将网页搜索与内容抓取功能无缝整合,极大地简化了 AI 数据获取流程。通过一次 API 调用,开发者即可后端执行自然语言查询,获取目标网页的完整内容,并支持 Markdown、HTML 等多种 AI 友好格式输出,完美适配大型语言模型 (LLM) 需求。此功能无需第三方依赖,完全在后端运行,并具备内置代理管理和反爬机制,确保数据获取的高效与稳定。作为开源工具,Firecrawl 的 /search API 大幅降低了 AI 开发门槛,为智能代理、内容分析和 RAG 系统等 AI 应用提供了强大支持。

6、日本 AI 逆袭全球!Shisa V2 405B 开源发布,碾压 GPT-4 的日语神器来了!
Shisa.AI 近日发布了基于 Llama 3.1 的 Shisa V2 405B 模型,被誉为“日本有史以来训练的最强大型语言模型”。该日英双语开源模型在多项日语基准测试中超越 GPT-4 及 GPT-4 Turbo,甚至与 GPT-4o 和 DeepSeek-V3 不相上下,展现了卓越的日语处理能力。Shisa.AI 专注于优化后训练流程,通过强大的日英双语数据集 ultra-orca-boros-en-ja-v1 提升模型性能。Shisa V2 系列覆盖 7B 至 405B 参数,并通过开源推动全球 AI 创新,标志着日本本土 AI 在全球竞争中的崛起。

7、Cursor 1.0 正式发布:全新 BugBot 功能,审查代码修复 Bug
AI 驱动的代码编辑器 Cursor 正式发布 1.0 版本,引入了多项创新功能以提升开发效率。核心亮点 BugBot 能够自动化分析 GitHub Pull Request 并识别代码错误,提供一键修复功能。此外,Background Agent 全面开放,支持远程编码任务处理;新增 Jupyter 支持和 Memories 功能,增强数据科学与项目管理能力。Cursor 1.0 还优化了界面和安装流程,旨在提供更智能、高效的编程体验,并获得了9亿美元融资支持,预示着其在 AI 驱动开发领域的强劲发展。

http://www.xdnf.cn/news/888391.html

相关文章:

  • 使用Node.js分片上传大文件到阿里云OSS
  • Gemini开源项目DeepResearch:基于LangGraph的智能研究代理技术原理与实现
  • freeRTOS 消息队列之一个事件添加到消息队列超时怎么处理
  • 【threejs】每天一个小案例讲解
  • Dubbo Logback 远程调用携带traceid
  • 【Algorithm】Segment Tree 简单介绍
  • C#异步编程:从线程到Task的进化之路
  • Linux 内核队列调度相关内核选项详解
  • Java + Spring Boot + Mybatis 插入数据后,获取自增 id 的方法
  • 【.net core】.KMZ文件解压为.KML文件并解析为GEOJSON坐标数据集。附KML处理多线(LineString)闭环问题
  • 【LLIE专题】NTIRE 2025 低照度图像增强第二名方案
  • EtherCAT Module and Slot
  • Python训练第四十五天
  • 中国森林地上和地下植被碳储量数据集(2002~2021)
  • 【EN 18031】访问控制机制(ACM - 3):儿童玩具的防护盾
  • 我认为STM32输入只分为模拟输入 与 数字输入
  • 实现基于Yolo的异常聚集算法
  • 会话技术:Cookie 与 Session 详解
  • Ubuntu崩溃修复方案
  • 基于Java(Jsp+servelet+Javabean)+MySQL实现图书管理系统
  • Vue中实现表格吸底滚动条效果,列太多时左右滚动条始终显示在页面中
  • android知识总结
  • 【从0-1的CSS】第1篇:CSS简介,选择器已经常用样式
  • NoSQl之Redis部署
  • 【PhysUnits】15.16 补充to_i32方法的类型级整数表示(basic.rs)
  • wxpython快捷键示例
  • Python cryptography【密码库】库功能与使用指南
  • 模块化架构下的前端调试体系建设:WebDebugX 与多工具协同的工程实践
  • Sublime Text4 4192 安装
  • NGINX `ngx_stream_core_module` 模块概览