当前位置: 首页 > ops >正文

bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

1. 扩充词表

替换bert词表中的【unused】

2. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

1. 扩充词表

(1) 不改变原来的id,直接将【unused】换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json  怎么用

2. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

http://www.xdnf.cn/news/10175.html

相关文章:

  • 企业AI部署热潮下的安全隐忧:速度与安全的博弈
  • QT入门学习
  • 电脑驱动程序更新工具, 3DP Chip 中文绿色版,一键更新驱动!
  • 【基础算法】高精度(加、减、乘、除)
  • 【iOS】方法交换
  • 【SpringBoot实战】优雅关闭服务
  • 【NLP 78、手搓Transformer模型结构及实战】
  • 34.x64汇编写法(一)
  • stm32——I2C协议
  • 第三方软件评测机构如何助力软件品质提升及企业发展?
  • 微信小程序真机调试时如何实现与本地开发环境服务器交互
  • 27 C 语言编程核心:main 主函数(基本形式、返回值、参数、命令行传参)、多文件编程实践
  • 设计模式——面向对象设计六大原则
  • JavaScript 在 AcroForm 中的广泛应用
  • 设计模式——抽象工厂设计模式(创建型)
  • 【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程
  • linux进程用户态内存泄露问题从进程角度跟踪举例
  • LG P5048 [Ynoi2019 模拟赛] Yuno loves sqrt technology III Solution
  • spring boot项目中的一些常用提示信息
  • 工业物联网中的事件驱动采样架构及优化
  • MySQL项目实战演练:搭建用户管理系统的完整数据库结构【MySQL系列】
  • 机器视觉2D定位引导一般步骤
  • 视频监控联网系统GB28181协议中事件通知流程详解以及通知失败常见原因
  • 目前主流图像分类模型的详细对比分析
  • 前端-不对用户显示
  • 小明的Java面试奇遇之互联网保险系统架构与性能优化
  • 鲲鹏Arm+麒麟V10 K8s 离线部署教程
  • C++ 栈(Stack)与队列(Queue)深度解析:从原理到实战
  • Python字符串格式化(三): t-string前瞻(Python 3.14 新特性)
  • 使用yocto搭建qemuarm64环境