当前位置: 首页 > backend >正文

NLP之文本纠错开源大模型:兼看语音大模型总结

今天我们来看开源相关进展,看两个问题。

一个是大模型用于文本纠错开源工具,有一些模型跟数据,可以做个记录。

另外,在语音方面,也有一些语音转写或者对话的大模型,也做个技术汇总,看看有哪些模型,哪些数据,哪些tokenizer。

一、大模型用于文本纠错开源工具

先看NLP进展,中文拼写和语法纠错大模型,https://github.com/TW-NLP/ChineseErrorCorrector,支持中文拼写和语法错误纠正,并开源拼写和语法错误的增强工具。

具体功能上,支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共 14种错误。

图片

开放模型上,大模型训练代码,给出了多个模型,有4B、7B和1.5j几个版本,如https://huggingface.co/twnlp/ChineseErrorCorrector3-4B,具体如下:

图片

训练数据上,使用200万纠错数据进行全量训练,适用于语法纠错和拼写纠错,也开源了数据集,数据集如下:

图片

二、语音大模型的技术总结

语音大模型进展,Awesome-SpeechLM-Survey,涵盖了50多种语音语言模型,提供丰富的模型资源,《Recent Advances in Speech Language Models: A Survey》: https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

图片

其中重点的,可以看:

1、目前有哪些训练数据集:

图片

2、目前对于语音的tokenizer:

图片

3、目前主流的语音大模型:

图片

http://www.xdnf.cn/news/14907.html

相关文章:

  • bottles安装网易云出现的问题01中文出现乱码问题
  • JavaScript基础语法之运算符和控制流
  • 程序员在线接单
  • 记录一点开发技巧
  • 七牛云前端面试题及参考答案 (上)
  • 隐马尔可夫模型(HMM):观测背后的状态解码艺术
  • 动手学深度学习-学习笔记【二】(基础知识)
  • 编程中的英语
  • 【C语言刷题】第十一天:加量加餐继续,代码题训练,融会贯通IO模式
  • cloudflare配合github搭建免费开源影视LibreTV一个独享视频网站 详细教程
  • HarmonyOS学习2---工程目录UIAbility
  • rk3128 emmc显示剩余容量为0
  • C++ 模板参数匹配、特化
  • openai和chatgpt什么关系
  • 11_架构演进:从单体到云原生的蜕变
  • 查看linux 系统中 支持哪些 ssh negotiate 算法
  • webpack+vite前端构建工具 -11实战中的配置技巧
  • 后端快捷代码
  • Redis服务器
  • JVM的位置和JVM的结构体系
  • ASP.NET 安装使用教程
  • 人工智能-基础篇-18-什么是RAG(检索增强生成:知识库+向量化技术+大语言模型LLM整合的技术框架)
  • Spark SQL架构及高级用法
  • Zama 机密区块链协议Litepaper
  • Android Input 系列专题【事件的读取与分发】
  • 408第三季part2 - 计算机网络 - 计算机网络分层结构
  • MySQL——9、事务管理
  • Linux安装java后没法运行
  • StarRocks × Tableau 连接器完整使用指南 | 高效数据分析从连接开始
  • 智能监控算法助力工厂高温高效管理