当前位置: 首页 > java >正文

我们可以无损放大一个transformer吗

“无损放大”的含义就是:
是否可以通过某种变换,把一个小模型直接变换成一个大模型,并且输出完全不改变?

1 结论:可以放大

在这里插入图片描述

对于BERT来说,
如果非线性激活函数用ReLU,那么BERT是可以直接无损放大的,
如果非线性激活函数不是ReLU,那么可以实现MLM准确率无损的放大(事实上经过更精细的调整,也可以实现完全无损放大,但每个层的变换有点不统一了,不够优雅);

对于GPT、T5等模型来说,不管激活函数用啥(包括mT5用的GLU激活,也可以定制适当),其实都可以实现无损放大。

如果是其他略有不同的模型,那么就模仿前面的思想进行类似的分析即可。
如果是RoPE,那么将重复的方案改为式(15)就好;
如果是扩大k倍,那么将表格中的多数2换为k就好。
简单来说,如果Attention没有尺度缩放,以及FeedForward的激活函数是ReLU(或者LeakyReLU),那么放大k倍的变换就最简单的,将权重的每一维都执行“重复k次并除以√”k就好了。

2 尝试:

#仅仅扩大隐层向量的维度,并不改变模型的层数,也不改变多头注意力机制的头数

Embedding在这里插入图片描述

http://www.xdnf.cn/news/17861.html

相关文章:

  • [vibe coding-lovable]lovable是不是ai界的复制忍者卡卡西?
  • 微美全息(WIMI.US)借区块链与聚类技术,开启物联网去中心化安全架构新纪元
  • Maven学习笔记
  • iOS Sqlite3
  • PDF 段落提取利器:Spring AI 的 ParagraphPdfDocumentReader 实战
  • docker 容器管理入门教程
  • 【科研绘图系列】R语言绘制微生物丰度和基因表达值的相关性网络图
  • 解剖HashMap的put <五> JDK1.8
  • 短视频流量|基于Java+vue的短视频流量数据分析系统(源码+数据库+文档)
  • Go语言实战案例:用Gin实现图书管理接口
  • 云原生俱乐部-k8s知识点归纳(1)
  • 当GitHub宕机时,我们如何协作?
  • Flutter sqflite插件
  • Docker运行python项目:使用Docker成功启动FastAPI应用
  • Java 中导出 Excel 文件的方法
  • 本地jar导入到本地仓科和远程仓库
  • [ HTML 前端 ] 语法介绍和HBuilderX安装
  • Spring Boot 3中JWT密钥安全存储方案
  • 图灵测试:人工智能的“行为主义判据”与哲学争议
  • 论,物联网日志系统架构如何设计?
  • 使用colmap自制3DGaussian_Splatting数据集
  • Java进阶学习之Stream流的基本概念以及使用技巧
  • 第四天~在CANFD或CAN2.0的ARXML文件中实现Multiplexor多路复用信号实战
  • 3D-R1、Scene-R1、SpaceR论文解读
  • Codeforces Round 1042 (Div. 3)
  • Ansys FreeFlow入门:对搅拌罐进行建模
  • vector 认识及使用
  • 【论文阅读-Part1】PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation
  • 如何通过WiFi将文件从安卓设备传输到电脑
  • Scrapy 基础框架搭建教程:从环境配置到爬虫实现(附实例)