当前位置: 首页 > java >正文

ParakeetTDT0.6BV2,语音识别ASR,极速转录, 高精度英文转录,标点支持(附整合包)

分享一个英伟达开源的高精度AI语音转文字神器——Parakeet-tdt-0.6b-v2!这款600亿参数的语音识别模型能实时将英文音频转化为带标点、大小写的文本,自动预测逐词时间戳,甚至能精准转录数字、歌词等复杂内容。

项目界面

我试了下,速度确实非常快,1分44秒的音频,转录花费的时间不超过5秒(5090显卡)。

使用方法

上传音频,音频格式建议MP3或者WAV。其他格式没测试过,不建议使用。

然后点击转录上传的文件。

生成时间轴和转录后的文本内容。

可以直接下载CSV格式的

也支持SRT下载

在界面上框选对应的文本片段还可以试听。

比较赞的是可以该项目支持商用,支持超长音频(3小时左右)。但是目前只支持英文转录,其他语言暂不支持。

配置需求

WIN

WindowsN卡需6G显存

如果整合包运行报错,需要安装cuda12.8

https://developer.nvidia.com/cuda-12-8-0-download-archive

MAC

暂不支持

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘:
https://pan.quark.cn/s/03a53cdfe21f

度度度盘:
https://pan.baidu.com/s/1ixf3Y7eXS8skaBHlqk82CQ?pwd=rrts

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

http://www.xdnf.cn/news/9564.html

相关文章:

  • Dify案例实战之智能体应用构建(二)
  • IBM DB2和MYSQL在安全性、稳定性等方面的差异
  • 时间序列预测算法中的预测概率化笔记
  • GPIO驱动实例代码
  • 【客户案例】借助 DHTMLX Gantt 和 Diagram 构建高效项目与流程管理平台
  • 基于SpringBoot开发一个MCP Server
  • vue 中的ref属性
  • chown修改不成功的解决方案
  • ESP8285乐鑫SOCwifi芯片32bit MCU和2.4 GHz Wi-Fi
  • 零衍课堂 | 环境初始化部署流程
  • 从0到1:多医院陪诊小程序开发笔记(上)
  • VMware 安装 Ubuntu 实战教程
  • python学习打卡day38
  • 截图后怎么快速粘贴到notability?
  • day22-定时任务故障案例
  • 秒杀系统—2.第一版初步实现的技术文档
  • 医院闭环系统业务介绍
  • Linux基础 -- 设备树引脚复用之`/omit-if-no-ref/` 用法解析
  • 8.7 基于EAP-AKA的订阅转移
  • Springboot 集成 TDengine3.0版本
  • git stash 的使用
  • qt ubuntu 20.04 交叉编译
  • python实战:在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订
  • MCP 与 AI 模型的用户隐私保护——如何让人工智能更懂“界限感”?
  • Python-114:字符串字符类型排序问题
  • HBO Max 中国大陆订阅与使用终极指南(2025 最新)
  • LangChain4j(17)——MCP客户端
  • 在PHP编程中包(Package)和库(Library)怎么区分?
  • 企业级AI开启落地战,得场景者得天下
  • LeeCode 94. 二叉树的中序遍历