当前位置: 首页 > java >正文

openai-whisper-asr-webservice接入dify

openai-whisper-asr-webservice提供的asr的api其实并不兼容openai的api,所以在dify中是不能直接添加到语音转文字的模型中,对比了下两个api的传参情况,其实只要改动一处,就能支持:
openai兼容的asr调用中formdata中音频文件是file=XXX这样的,而openai-whisper-asr-webservice提供的asr的api中formdata中音频文件是audio_file=XXX这样的。感觉使用openresty的lua简单处理一下改formdata中的信息转发到后端就可以搞定,折腾了半天没有进展 😦 只好先用nodejs做个express服务来转发下,效果是ok的。

const axios = require("axios");
const fs = require("fs");
const FormData = require('form-data');const express = require("express");
const app = express();const multer = require("multer");
const uploader = multer({ dest: 'uploads/' });const asrurl="http://127.0.0.1:9000/asr?output=json"app.post("/v1/audio/transcriptions", uploader.single("file"), (req, res, next)=> {let formData = new FormData();formData.append('audio_file', fs.createReadStream(req.file.path));axios.post(asrurl, formData, { headers: { 'Content-Type': 'multipart/form-data' }}).then(resp=>{ console.log("success"); console.log(resp.data); res.json(resp.data);}).catch(e=>{ console.log(e.response.data.detail); });});var server=app.listen(9100,()=>{console.log("openai_whisper_asr API 启动 ");});

这样可以在dify中添加openai兼容模型,选择speech2text模型,模型名称随便填,API endpoint URL
填 http://ip:9100/v1

http://www.xdnf.cn/news/8044.html

相关文章:

  • “智”斗秸秆焚烧,考拉悠然以科技之力筑牢生态安全防线
  • 解决自签名证书HTTPS告警:强制使用SHA-256算法生成证书
  • openCV1-2 图像的直方图相关
  • 微服务架构中的 RabbitMQ:异步通信与服务解耦(二)
  • SQLMesh 宏操作符详解:提升 SQL 查询的灵活性与效率
  • Spring Boot与Eventuate Tram整合:构建可靠的事件驱动型分布式事务
  • 高等数学-积分
  • ElasticSearch操作
  • HarmonyOS 鸿蒙应用开发基础:父组件调用子组件方法的几种实现方案对比
  • HarmonyOS 鸿蒙应用开发基础:@Watch装饰器详解及与@Monitor装饰器对比分析
  • HarmonyOS实战:高德地图自定义定位图标展示
  • Redis 5.0.10 集群部署实战(3 主 3 从,三台服务器)
  • 深度学习模型部署:使用Flask将图像分类(5类)模型部署在服务器上,然后在本地GUI调用。(全网模型部署项目步骤详解:从模型训练到部署再到调用)
  • RAGFlow知识检索原理解析:混合检索架构与工程实践
  • Dify大语言模型应用开发环境搭建:打造个性化本地LLM应用开发工作台
  • 基于开源AI智能名片链动2+1模式S2B2C商城小程序的管理与运营策略研究
  • 格雷希尔快速封堵接头,解决新能源汽车的气密性检测和三电系统的综合测试
  • java 基础知识巩固
  • 深度解析:Spark、Hive 与 Presto 的融合应用之道
  • SpringBoot Day_03
  • Docker 与微服务架构:从单体应用到容器化微服务的迁移实践
  • 谷歌medgemma-27b-text-it医疗大模型论文速读:多语言大型语言模型医学问答基准测试MedExpQA
  • 基于STM32F4的cubemx关于RTC配置说明
  • Docker架构详解
  • Win 系统 conda 如何配置镜像源
  • 【二刷力扣】【力扣热题100】今天的题目是:两数之和
  • Spring核心原理:动态数据源切换的企业级解决方案
  • springboot03
  • MqSQL
  • Oracle 11G RAC重启系统异常