当前位置: 首页 > news >正文

我用Cursor写了一个视频转文字工具,已开源,欢迎体验

一个基于 Whisper 的视频音频转文字工具,支持GPU加速,界面简洁,使用方便。

💻软件截图

软件截图

转文字效果

✨ 特性

  • 🎥 支持多种视频格式(mp4, avi, mov, wmv, flv, mkv等)
  • 🔊 支持多种音频格式(mp3, wav, m4a等)
  • 🚀 支持GPU加速,大幅提升转换速度
  • 💡 智能选择最适合的模型
  • 📂 支持批量处理
  • 🔍 支持文件夹递归扫描
  • 🛠 自动检查和安装依赖
  • 🎯 自动下载所需组件
  • 📝 输出带有时间戳的文本文件
  • 🌏 优化支持中文识别

🖥 系统要求

  • Windows 10 或更高版本
  • 如果要使用GPU加速:
    • NVIDIA显卡
    • 最新版显卡驱动
    • 建议显存≥4GB

📦 下载和安装

  1. 从 Releases 下载最新版本
  2. 解压到任意文件夹
  3. 双击运行 视频转文字工具.exe
  4. 首次运行时会自动安装必要的依赖

🚀 使用方法

  1. 启动程序
  2. 选择要转换的视频文件或文件夹
  3. 选择输出文件夹
  4. 选择合适的模型:
    • ≥10GB 显存:large(最佳质量)
    • ≥8GB 显存:medium(平衡速度和质量)
    • ≥5GB 显存:small(平衡内存和质量)
    • <5GB 显存:base(基本使用)
    • CPU模式:base(适合CPU模式)
  5. 点击"开始转换"

🔧 技术细节

  • 语音识别:OpenAI Whisper
  • GUI框架:PyQt5
  • 视频处理:FFmpeg
  • GPU加速:PyTorch + CUDA
  • 自动化部署:PyInstaller

📋 功能特点

智能模型选择

  • 自动检测系统配置
  • 推荐最适合的模型
  • 防止显存溢出

批量处理

  • 支持多文件选择
  • 支持文件夹导入
  • 显示处理进度和预计时间

GPU加速

  • 自动检测GPU
  • 支持CUDA加速
  • 支持CPU回退模式

依赖管理

  • 首次运行自动检查依赖
  • 自动下载安装必要组件
  • 显示详细的安装进度

🔍 常见问题

Q: 程序无法启动? A: 确保已安装最新的Visual C++运行库

Q: 转换速度很慢? A: 检查是否正确启用了GPU加速,可以点击"GPU诊断"按钮查看详情

Q: 显存不足? A: 尝试使用更小的模型,或切换到CPU模式

Q: 如何选择合适的模型? A: 程序会根据您的硬件配置自动推荐最适合的模型

🛠 开发相关

环境准备

 pip install pyinstaller pillow openai-whisper torch torchvision torchaudio PyQt5

打包方法

 # 生成图标python create_icon.py# 打包程序pyinstaller --clean --onefile --noconsole --icon=app.ico --name="视频转文字工具" videoToText.py

开源地址

Gitee:

https://gitee.com/lzy2018cn/video-totext

GitHub:

https://github.com/IAMLZY2018/VideoToText

成果物文件超过2G(实际2.4G左右)平台不允许上传,我放网盘了,欢迎体验:
点击跳转

http://www.xdnf.cn/news/932095.html

相关文章:

  • leetcode 10. 正则表达式匹配
  • 对比传统引擎,Unity3D 在生产配套中的独特优势
  • 【MySQL系列】MySQL 执行 SQL 文件
  • Java后端检查空条件查询
  • 快排图解及JS模板代码
  • 循环变量捕获问题​​
  • redis--黑马点评--分布式锁实现详解
  • 【C/C++】EBO空基类优化介绍
  • C++----剖析list
  • 言和语的洞见,即:融智学解决方案
  • SEO新手优化步骤拆解
  • 人脸识别技术应用备案办理指南
  • 可可·香奈儿 活出自己
  • 【Elasticsearch】映射:null_value 详解
  • 代码规范和架构【立芯理论一】(2025.06.08)
  • 分形几何在医学可视化中的应用:从理论到Python实战
  • 元素水平垂直居中的方法
  • Jinja2深度解析与应用指南
  • 高等数学》(同济大学·第7版)第三章第四节“函数的单调性与曲线的凹凸性“
  • 开源大模型网关:One API实现主流AI模型API的统一管理与分发
  • 【C++系列】智能指针自定义析构
  • 如何将淘宝店铺商品搬到抖店去?利用 API 实现淘宝店铺商品到抖店的高效迁移
  • 5-C#的DateTime使用
  • Web后端基础(基础知识)
  • 基于PTN传输承载的4G网络-故障未连接...(我不理解哪错了排查了几遍没发现哪错啊啊啊啊)
  • AI架构师如何创建自己的知识库
  • JS手写代码篇---手写ajax
  • 计组_导学
  • 云备份项目
  • 行为型设计模式之Mediator(中介者)