当前位置: 首页 > ds >正文

python + whisper 读取蓝牙耳机, 转为文字

1. 起因, 目的:

看到别人做了类似的效果。所以自己也想试试看。动手。

2. 先看效果

请添加图片描述

3. 过程:

我用的是蓝牙耳机,EDIFIER W820NB

  • 先找到声音,设置为 Hands-Free 模式
代码 1 ,查找设备名称, 看看哪个是能用的。
  • 我的设备, 能用的是 index=27
import sounddevice as sd
import numpy as np
import wave
import redef list_input_devices():print("🎤 可用音频输入设备列表:")input_devices = []devices = sd.query_devices()for i, device in enumerate(devices):if device['max_input_channels'] > 0:device['index'] = iprint(f"Index {i}: {device['name']} - {device['max_input_channels']} channels - {device['default_samplerate']} Hz")input_devices.append(device)return input_devicesdef record_audio(device_info, seconds=10):try:device_index = device_info['index']channels = 1  # 强制单声道rate = 16000  # 强制 16000 Hzprint(f"\n🎛️ 使用设备: {device_info['name']}")print(f"➡️ 设备索引: {device_index}")print(f"➡️ 通道数: {channels}")print(f"➡️ 采样率: {rate} Hz\n")print("🔍 检查设备配置...")sd.check_input_settings(device=device_index, channels=channels, samplerate=rate, dtype='int16')print("✅ 配置有效")print("🎙️ 正在录音中...")audio_data = sd.rec(int(seconds * rate), samplerate=rate, channels=channels, dtype='int16', device=device_index)sd.wait()safe_device_name = re.sub(r'[^\w\s-]', '_', device_info['name']).replace('\r', '').replace('\n', '').strip()output_file = f"{safe_device_name}_output.wav"with wave.open(output_file, 'wb') as wf:wf.setnchannels(channels)wf.setsampwidth(2)wf.setframerate(rate)wf.writeframes(audio_data.tobytes())print(f"🎵 录音已保存为 {output_file}")except sd.PortAudioError as pae:print(f"❌ 音频设备错误:{pae}")except OSError as ose:print(f"❌ 文件系统错误:{ose}")except Exception as e:print(f"❌ 未知错误:{e}")if __name__ == "__main__":print("🔊 使用默认音频接口")input_devices = list_input_devices()if input_devices:for device in input_devices:if 'EDIFIER W820NB' in device['name'] and 'Hands-Free' in device['name']:print(f"正在测试耳机设备: {device['name']}")record_audio(device)else:print("❌ 没有可用的音频输入设备。")
代码 2 , 使用 whisper 转为文字
  • 效果很勉强,见文末总结。
import sounddevice as sd
import numpy as np
import wave
import tempfile
import os
import whisper# 加载 Whisper 模型
model = whisper.load_model("medium")  # 可改为 "tiny", "base", "small", "large"# 音频录制设置
CHANNELS = 1  # 单声道,Hands-Free 模式通常只支持 1 通道
RATE = 16000  # 16000 Hz,适合 Hands-Free 模式
RECORD_SECONDS = 5  # 每次录音时长(秒)
DEVICE_INDEX = 27  # 已验证可用的设备索引
DEVICE_NAME = "耳机 (@System32\drivers\bthhfenum.sys,#2;%1 Hands-Free AG Audio%0;(EDIFIER W820NB 双金标版))"def record_audio(seconds=RECORD_SECONDS):try:print(f"🎧 正在录音 {seconds} 秒...")# 使用 sounddevice 录制音频audio_data = sd.rec(int(seconds * RATE),samplerate=RATE,channels=CHANNELS,dtype='int16',device=DEVICE_INDEX)sd.wait()  # 等待录音完成# 保存临时音频文件with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmpfile:with wave.open(tmpfile.name, 'wb') as wf:wf.setnchannels(CHANNELS)wf.setsampwidth(2)  # 16-bit 音频wf.setframerate(RATE)wf.writeframes(audio_data.tobytes())return tmpfile.nameexcept sd.PortAudioError as pae:print(f"❌ 音频设备错误:{pae}")return Noneexcept Exception as e:print(f"❌ 未知错误:{e}")return Nonedef transcribe_audio(audio_file):try:print("🧠 正在识别...")result = model.transcribe(audio_file, language="zh")print("📝 识别结果:", result['text'].strip())except Exception as e:print(f"❌ 语音识别失败:{e}")finally:if os.path.exists(audio_file):os.remove(audio_file)if __name__ == "__main__":print(f"🔊 使用设备: {DEVICE_NAME} (索引: {DEVICE_INDEX})")print("🎙️ 开始实时听写,按 Ctrl+C 停止")try:while True:# 录制音频audio_file = record_audio()if audio_file:# 进行语音识别transcribe_audio(audio_file)else:print("⚠️ 录音失败,跳过识别")# 短暂暂停,避免过于频繁的录音sd.sleep(100)  # 100 毫秒except KeyboardInterrupt:print("🛑 停止实时识别")except Exception as e:print(f"❌ 程序错误:{e}")

4. 结论 + todo

  • 开始的时候,加载模型比较慢。
  • 能实现实时语音识别,但识别效果不佳,我猜测的原因是:
  • 耳机质量太差,有些参数设置不够合理。

http://www.xdnf.cn/news/4458.html

相关文章:

  • JavaScript 到命令和控制 (C2) 服务器恶意软件分析及防御
  • 三生原理是如何与狄利克雷定理兼容的?
  • 使用docker配置Mysql
  • 2021-10-29 C++被17或13整除最大10个数的和
  • 六六大顺--高精度+数学
  • 【QT】QT软件编译生成exe后,需要拷贝依赖库使用方法
  • 使用Windows+Linux实现mysql的主从复制
  • 【容器化】Docker容器技术入门基础教程
  • 【第四章】23-常见问题的快速处理
  • UKCC(原OUCC)真题讲解(一)
  • 代码随想录算法训练营总结篇
  • C++ 的 Tag Dispatching 技术
  • 人工智能 计算智能领域中分布估计算法的核心思想
  • 深度学习模型GoogLeNet的创新
  • 深入解析代理服务器:原理、应用与实战配置指南
  • 支持 BLF 的 Kamailio 脚本
  • Baklib知识中台驱动企业智能升级
  • SpringBoot快速入门复习概览
  • 2025年01月09日德美医疗前端面试
  • 2025年提交App到Appstore从审核被拒到通过的经历
  • 连锁企业筹建流程效能提升方案:日事清在标准化进度管控中的落地应用​
  • Vue 工程化 + ElementPlus 深度实战指南:从脚手架到生产部署全流程解析
  • 【HDLBits刷题】Verilog Language——1.Basics
  • 2021-10-31 C++求一个千位和十位数字之和为10,百位个位之积为12的四位数
  • 国标GB28181视频平台EasyGBS打造公路水运工程平安工地视频远程监控体系
  • Codeforces Round 1023 (Div. 2) ABC
  • 空间内任意点到直线和平面的距离推导
  • 凌晨三点的数据库崩溃现场
  • C#中读取文件夹(包含固定字样文件名)
  • CentOS7 联网在线安装docker