当前位置: 首页 > news >正文

OpenBayes 一周速览|TransPixeler 实现透明化文本到视频生成;统一图像定制框架 DreamO 上线,一键处理多种图像生成任务

公共资源速递

2 个公共数据集:

* s1K-1.1 数学推理数据集

* HPA 人类蛋白质图谱数据集

3 个公共模型:

* MedGemma-4B-IT

* Devstral-Small-2505

* DeepSeek-Prover-V2-7B

12 个公共教程:

视频生成 * 2

语音交互 * 3

代码生成 * 3

图像生成编辑 * 4

访问官网立即使用:openbayes.com

公共数据集

1. s1K-1.1 数学推理数据集

s1K-1.1 数据集是一个数学问题推理数据集,旨在强化大语言模型(LLMs)推导的逻辑连贯性,借数学推理优化其结构化思维。该数据集包含 1,000 条样本,以数学问题及推理轨迹为核心,涵盖代数、几何、概率等多个数学领域,每条样本包含问题描述、解题步骤、答案及由 DeepSeek R1 生成的推理轨迹。

* 直接使用:

OpenBayes 控制台

2. HPA 人类蛋白质图谱数据集

该数据集是由 Human Protein Atlas(HPA)数据库的数据组成,其中包含大量高分辨率的共聚焦显微图像,覆盖数千种人类蛋白在不同细胞器中的空间分布情况,是用于蛋白亚细胞定位研究的重要公共资源。

* 直接使用:

OpenBayes 控制台

公共模型

1. MedGemma-4B-IT

* 发布机构:谷歌(Google)

MedGemma-4B-IT 属于 MedGemma 系列中的指令微调版本(Instruction-Tuned),专为医疗图像与文本的联合理解而优化。MedGemma-4B-IT 可用于放射学、数字病理学、眼底摄影和皮肤图像的分类,其预训练使其成为此类任务的良好起点。

* 直接使用:

OpenBayes 控制台

2. Devstral-Small-2505

* 发布机构:Mistral AI、All Hands AI

Devstral-Small-2505 模型基于 Mistral-Small-3.1 微调而来,拥有 240 亿参数,专为代码库探索、多文件编辑和软件工程代理任务设计。

* 直接使用:

OpenBayes 控制台

3. DeepSeek-Prover-V2-7B

* 发布机构:深度求索(DeepSeek)

DeepSeek-Prover-V2-7B 模型专为数学 AI 编程语言 Lean 4 设计,旨在将非形式化的数学推理与严格的形式化证明无缝结合。该模型能够将自然语言问题转换为形式化证明代码,适用于自动定理验证和数学发现。

* 直接使用:

OpenBayes 控制台

公共教程

视频生成 * 2

1. LTX-Video:极速视频生成 v2

LTX-Video 模型采用了 transformer 和 Video-VAE 技术,能够高效生成高分辨率视频。在 Nvidia H100 GPU 上仅用 2 秒就以 768x512 的分辨率生成了 5 秒的 24 fps 视频,性能优于所有类似规模的现有模型。此外,LTX-Video 支持多种视频生成方式,包括从文本到视频、从图像到视频、扩展视频和具有多个条件的视频生成。

该教程算力资源采用单卡 A6000,提供「文本到视频生成」和「图片到视频生成」2 个示例供测试。

* 在线运行:

OpenBayes 控制台

效果展示

2. TransPixeler:文本生成 RGBA 视频

TransPixeler 保留了原始 RGB 模型的优势,并在有限的训练数据下实现了 RGB 和 alpha 通道之间的强对齐,能够有效地生成多样且一致的 RGBA 视频,从而推动了视觉特效和交互内容创作的可能性。

本教程采用资源为单卡 A6000,目前文字描述仅支持英语。打开下方链接,体验快速生成 RGBA 视频。

* 在线运行:

OpenBayes 控制台

项目示例

语音交互 * 3

1. Kimi-Audio:让 AI 听懂人类

Kimi-Audio-7B-Instruct 模型能够在单个统一框架内处理各种音频处理任务,在多项音频基准测试中达到 SOTA 水平。

该教程算力资源采用单卡 A6000,相关数据已配置完成,复制链接到网页,快速处理多音频任务。

* 在线运行:

OpenBayes 控制台

模型界面示例

2. Parakeet-tdt-0.6b-v2 语音识别

Parakeet-tdt-0.6b-v2 模型基于 FastConformer 编码器架构和 TDT 解码器,能够一次高效转录长达 24 分钟的英语音频片段。该模型专注于高精度、低延迟的英语语音转录任务,适用于实时英语语音转文本场景(如客服对话、会议记录、语音助手等)。

进入下方链接克隆模型,解锁自己的专属语音识别小助手。

* 在线运行:

OpenBayes 控制台

模型示例

3. VITA-1.5:多模态交互大模型 Demo

VITA-1.5 旨在实现类似 GPT-4o 水平的实时视觉和语音交互。该模型大幅降低互动延迟,从 4 秒缩短至 1.5 秒,显著提升了用户体验。

本教程采用资源为单卡 A6000,目前 AI 互动仅支持中文和英语。

* 在线运行:

OpenBayes 控制台

代码生成 * 3

1. Mellum-4b-base 专为代码补全设计的模型

Mellum-4b-base 模型专为代码理解、生成与优化任务设计。该模型在软件开发全流程中展现出卓越能力,适用于 AI 增强编程、智能 IDE 集成、教育工具开发及代码研究等场景。

本教程采用资源为单卡 RTX 4090,模型仅用于优化代码,一键克隆即可启动。

* 在线运行:

OpenBayes 控制台

项目示例

2. OpenCodeReasoning-Nemotron-32B 一键部署

OpenCodeReasoning-Nemotron-32B 模型是专为代码推理与生成设计的高性能大语言模型,属于 OpenCodeReasoning(OCR)模型套装中的旗舰版本,支持 32K 个标记的上下文长度。

相关数据已配置完成,进入下方链接,快速体验高效代码推理。

* 在线运行:

OpenBayes 控制台

项目示例

3. vLLM+OpenWebUl 部署 Seed-Coder-8B-Instruct

Seed-Coder-8B-Instruct 属于 Seed-Coder 系列的指令微调版本,需最少的人力,LLM 就可以自行有效地管理代码训练数据,从而大大增强编码能力。该模型基于 Llama 3 架构构建,参数量为 8.2 B,支持 32 K tokens 长上下文。该模型在各种编码任务中实现了同等规模的开源模型的最新性能。

该教程算力资源采用单卡 RTX 4090,克隆并进入网页后即可使用模型处理各种编码任务。

* 在线运行:

OpenBayes 控制台

项目示例

图像生成编辑 * 4

1. DreamO:统一的图像定制框架

DreamO 基于 DiT(Diffusion Transformer)架构,整合了多种图像生成任务,支持换装(IP)、换脸(ID)、风格迁移(Style)、多主体组合等复杂功能,通过单一模型实现多条件控制。

本教程采用资源为单卡 A6000,克隆模型快速处理各种图像生成任务。

* 在线运行:

OpenBayes 控制台

项目示例

2. ComfyUl Chroma 工作流在线教程

Chroma 基于 FLUX.1-schnell 的 8.9 B 参数模型,该模型目前正在训练中,训练数据集从 20 M 样本中精心挑选出 5 M 数据,涵盖动漫、兽类、艺术作品和照片等多种类型。

本教程采用资源为单卡 RTX 4090,仅支持英语提示词。

* 在线运行:

OpenBayes 控制台

项目示例

3. ComfyUl LanPaint 图像修复工作流教程

LanPaint 是一款开源图像局部修复工具,它采用创新的推理方法,无需额外训练即可适配多种稳定扩散模型(包括自定义模型),从而实现高质量的图像修复。相较于传统方法,LanPaint 提供了一种更轻量级的解决方案,显著降低了对训练数据和计算资源的需求。

进入下方链接,一键拯救废片。

* 在线运行:

OpenBayes 控制台

效果展示

4. ComfyUl Flex.2-preview 工作流在线教程

Flex.2-preview 是 Flex.1-alpha 的后续版本。该模型完全开源,拥有 80 亿参数,并内置了多种图像控制和修复绘制功能,为创作者提供更全面的图像生成体验。

本教程采用资源为单卡 RTX 4090,克隆模型快速体验更全面的图像生成。

* 在线运行:

OpenBayes 控制台

项目示例

http://www.xdnf.cn/news/892729.html

相关文章:

  • Win10、Win11系统,使用谷歌浏览器文件流下载,C盘剩余容量小于4GB时,下载失败问题
  • 记一个判决书查询API接口的开发文档
  • 深入解析C++五大常用设计模式:原理、实现与应用场景
  • python变量
  • 技术文章大纲:如何利用DeepSeek提升工作效率
  • x86 汇编中的【条件跳转指令】:从基础到扩展的全面解析(查表版)
  • Dify 本地部署详细指南(Windows 11 系统)
  • 【Linux】可重入函数 volatile SIGHLD信号
  • 线程的基础知识
  • 深入理解 Spring IOC:从概念到实践
  • 企业级AI迈入黄金时代,企业该如何向AI“蝶变”?
  • 08_10小结
  • Tensorborad
  • Android Test2 获取系统android id
  • 8086寻址解剖图:7种武器解锁x86内存访问的基因密码
  • Simplicity studio SDK下载和安装,创建工程
  • 使用 DuckLake 和 DuckDB 构建 S3 数据湖实战指南
  • 在表单输入框按回车页面刷新的问题
  • 使用 minicom 录制串口报文并回放
  • 【YOLO 系列】基于YOLO的飞机表面缺陷智能检测系统【python源码+Pyqt5界面+数据集+训练代码】
  • 掌握YOLOv8:从视频目标检测到划定区域统计计数的实用指南
  • 图简记。。
  • 深度解析数字营销专属大模型 AdLLM 的训练思路
  • 【学习笔记】Lamba表达式[匿名函数]
  • 搜索子字符串的思路与算法分享
  • 类似东郊到家app系统源码开发
  • 《神经渲染变局:高斯泼溅能否改写NeRF规则》
  • 【强化学习】——03 Model-Free RL之基于价值的强化学习
  • hbase资源和数据权限控制
  • 经典算法:回文链表