当前位置: 首页 > ds >正文

OpenBayes 一周速览丨Self Forcing 实现亚秒级延迟实时流视频生成;边缘AI新秀,LFM2-1.2B采用创新性架构超越传统模型

公共资源速递  This Weekly Snapshots !

5 个公共数据集:

* AF-Chat 音频对话文本数据集 

* ArtVIP 机器交互式图像数据集 

* Updesh 印度语合成文本数据集 

* Medical Information 药品信息数据集 

* Nemotron-Math-HumanReasoning 数学推理数据集

6 个公共教程:

* Self Forcing 实时视频生成

* MOSS:文本到口语对话生成

* PE3R:高效感知三维重建框架

* LFM2-1.2B:高效边缘部署的文本生成模型

* AudioBox-Aesthetics 音频美学评估 Demo

* Osmosis-Structure-0.6B:结构化输出的小语言模型

访问官网立即使用:openbayes.com

公共数据集

1. AF-Chat 音频对话文本数据集

AF-Chat 数据集包含约 7.5 万个多回合、多音频对话(平均 4.6 个片段和 6.2 个回合;范围为 2-8 个片段和 2-10 个回合),涵盖语音、环境声音和音乐。该数据集根据每个音频的源数据集划分为不同的子集(声音、音乐 4ALL、百万歌曲数据集,适用于虚拟助手、客服和其他需要情感识别与响应的对话系统。

* 在线使用:

https://go.openbayes.com/Ptvi3

2. ArtVIP 机器交互式图像数据集

ArtVIP 数据集包含 26 个类别的 206 个铰接物体,涵盖家居用品、大型家具、大家电、小家电和小家具,还提供了 6 个数字孪生环境和 6 个完全交互环境,包括儿童房、饭厅、厨房、带客厅的厨房、大客厅和小客厅。它通过精确的几何网格和高分辨率纹理确保视觉真实感,通过精细调整的动态参数实现物理保真度,同时率先在资产中嵌入模块化交互行为,并实现了像素级可供性标注。

* 在线使用:

https://go.openbayes.com/rzr7h

数据集示例

3. Updesh 印度语合成文本数据集

Updesh 数据集包含 6,800,000 条推理数据及 2,100,000 条生成数据,其涉及的语言有阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、泰米尔语、泰卢固语、乌尔都语。

* 在线使用:

https://go.openbayes.com/oCUQC

4. Medical Information 药品信息数据集

Medical Information 数据集包含 44 个不同治疗类别的数据,涵盖超过 192,000 种药品,旨在提供准确、权威的药品信息、支持药物分类和治疗标签,提升临床试验管理的预测和效率。

* 在线使用:

https://go.openbayes.com/r5GCr

5. Nemotron-Math-HumanReasoning 数学推理数据集

Nemotron-Math-HumanReasoning 数据集包含来自 OpenMathReasoning 数据集的 50 道数学题、200 个人工撰写的解答,以及由 QwQ-32B-Preview 额外生成的 50 个解答。

* 在线使用:

https://go.openbayes.com/W6LIO

公共教程

1.Self Forcing 实时视频生成

Self Forcing 是一种用于自回归视频扩散模型的全新训练范式,它解决了长期存在的曝光偏差问题,即基于真实上下文训练的模型必须在推理过程中生成基于自身不完美输出的序列。该模型采用了新的处理方法,通过在训练期间执行带有键值(KV)缓存的自回归 rollout,将每帧的生成条件设定为先前自生成的输出。大量实验表明,他们的方法能够在单个 GPU 上实现亚秒级延迟的实时流视频生成,同时达到甚至超越速度明显较慢且非因果扩散模型的生成质量。

* 在线运行:

https://go.openbayes.com/6DHF9

项目示例

2. MOSS:文本到口语对话生成

MOSS-TTSD 能够将两位说话者之间的对话脚本转换为自然、富有表现力的对话语音。该模型支持语音克隆和长单段语音生成,使其成为 AI 播客制作的理想选择。

* 在线运行:

https://go.openbayes.com/BVVOI

项目示例

3. PE3R:高效感知三维重建框架

PE3R 基于多项前沿计算机视觉研究成果开发,仅需输入 2D 图像即可快速完成 3D 场景重建,在 RTX 3090 显卡上单场景平均重建时间仅需 2.3 分钟,较传统方法效率提升 65% 以上。

* 在线运行:

https://go.openbayes.com/DC5uv

项目示例

4. LFM2-1.2B:高效边缘部署的文本生成模型

LFM2-1.2B 采用了新型混合架构,创新性地结合了乘法门控和短卷积,包含 16 个块(10 个双门控短程 LIV 卷积块和 6 个分组查询注意力块),解决了传统模型在处理效率和性能上的不足。其训练基于 10 万亿 tokens 的预训练语料,采用知识蒸馏、大规模监督微调(SFT)和自定义直接偏好优化(DPO)等多阶段训练策略,在知识、数学、指令遵循和多语言能力等多个基准类别上,性能优于同规模模型,甚至能与更大参数规模的模型相竞争。

* 在线运行:

https://go.openbayes.com/AH2Sc

项目示例

5. AudioBox-Aesthetics 音频美学评估 Demo

Audiobox-Aesthetics 基于深度学习技术,实现对语音、音乐和环境声音的多维度自动分析,通过 4 个核心维度全面评估音频质量,为音频创作者、工程师和研究人员提供专业级的量化分析。

* 在线运行:

https://go.openbayes.com/uWgm8

项目示例

6. Osmosis-Structure-0.6B:结构化输出的小语言模型

Osmosis-Structure-0.6B 旨在完成结构化输出生成任务,尽管其参数规模仅为 0.6B,但与支持的框架结合使用时,该模型在提取结构化信息方面展现出卓越的性能。

* 在线运行:

https://go.openbayes.com/61Jj7

项目示例

http://www.xdnf.cn/news/16779.html

相关文章:

  • 爱车生活汽车GPS定位器:智能监控与安全驾驶的守护者
  • 云原生环境里的显示变革:Docker虚拟浏览器与cpolar穿透技术实战
  • 新零售“实—虚—合”逻辑下的技术赋能与模式革新:基于开源AI大模型、AI智能名片与S2B2C商城小程序源码的研究
  • RAG:检索增强生成的范式演进、技术突破与前沿挑战
  • pytorch入门2:利用pytorch进行概率预测
  • 智慧城市SaaS平台|市政公用管理系统
  • LeetCode Hot 100 搜索旋转排序数组
  • Java项目:基于SSM框架实现的济南旅游网站管理系统【ssm+B/S架构+源码+数据库+毕业论文+远程部署】
  • Linux系统指令之 —— passwd
  • 【maven】仓库配置
  • 基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(二)
  • 15.10 单机8卡到千卡集群!DeepSpeed实战调参手册:A100训练效率翻倍,百万成本优化实录
  • 【C++详解】深入解析多态 虚函数、虚函数重写、纯虚函数和抽象类、多态原理、重载/重写/隐藏的对⽐
  • composer 常用命令
  • Unity_XR控制手部动画
  • NVIDIA Isaac平台推动医疗AI机器人发展研究
  • C++:STL中list的使用和模拟实现
  • 常见的cms框架的webshell方法
  • JavaScript和小程序写水印的方法示例
  • 谈谈毕业工作一年后的变化
  • 【C语言】指针深度剖析(一)
  • 集成电路学习:什么是Wi-Fi无线保真度
  • Java优雅使用Spring Boot+MQTT推送与订阅
  • 使用LangChain构建法庭预定智能体:结合vLLM部署的Qwen3-32B模型
  • Accessibility Insights for Windows 使用教程
  • dubbo应用之3.0新特性(响应式编程)(2)
  • JVM 崩溃(Fatal Error)解决方法
  • C++与C#实战:FFmpeg屏幕录制开发指南
  • Rust基础-part8-模式匹配、常见集合
  • 前端学习日记(十五)