当前位置: 首页 > web >正文

SwiGLU激活函数的原理

         SwiGLU(Swish Gated Linear Units,Swish⻔控线性单元)是GLU(Gated Linear Units,⻔控线性单元)激活函数的⼀种变体,它将Swish激活函数和GLU结构结合起来,⽤于提升深度学习模型的性能,尤其是在像LLaMA这样的语⾔模型中得到⼴泛应⽤。

1、GLU


GLU激活函数公式

2、Swish

        Swish是⼀种近年来提出的、性能优异的激活函数,它的表达式为:

3、SwisGLU

SwiGLU是通过将GLU中的Sigmoid函数替换为Swish函数得到的,其表达式如下:
        在这⾥,Swish取代了原有的Sigmoid作为⻔控激活函数,这样就能在更平滑的激活函数下实现类似的⻔控机制。与GLU相⽐,SwiGLU引⼊了更复杂的⾮线性变化,使得⽹络对不同输⼊的响应更加灵活。通过这种⽅式,SwiGLU能够在保持计算效率的同时提升模型的表现。

4 、SwiGLU的优势

        ReLU死区指的是ReLU激活函数在输入为负数时,其输出恒为0,且梯度(导数)也为0的区域。处于这个区域的神经元无法被激活,也无法通过梯度下降算法进行更新,就像“死掉”了一样。

5、总结

        SwiGLU激活函数作为LLaMA模型的改进之⼀,通过将GLU中的Sigmoid替换为Swish,使得模型在复杂任务中的表现得到了显著提升。其平滑的激活特性、灵活的⾮线性响应以及⻔控机制共同作⽤,提升了模型的表达能⼒和计算效率。
http://www.xdnf.cn/news/19201.html

相关文章:

  • TensorFlow 面试题及详细答案 120道(51-60)-- 模型保存、加载与部署
  • 微软正在公开测试其首个完全自主训练的大语言模型——MAI-1-preview
  • python 日常学习记录
  • Java全栈开发工程师面试实录:从基础到微服务的深度技术解析
  • 【python】相机输出图片时保留时间戳数据
  • Blender模拟结构光3D Scanner(三)获取相机观测点云的真值
  • 信息系统生命周期
  • 小程序版碰一碰发视频:源码搭建与定制化开发的源头技术解析
  • CSS scale函数详解
  • nginx 怎么将 https 请求转为 http
  • Docker 实战 -- EMQX
  • 第22章笔记|把“可传参脚本”打磨成“高级好用的工具”
  • 链表(LinkedList)
  • docker compose设置命令别名的方法
  • Swift 解法详解:LeetCode 366《寻找二叉树的叶子节点》
  • 贪心算法面试常见问题分类解析
  • 微服务入门指南(一):从单体架构到服务注册发现
  • PPT处理控件Aspose.Slides教程:使用 C# 编程将 PPTX 转换为 XML
  • Pytorch超分辨率模型实现与详细解释
  • CRYPT32!CryptMsgUpdate函数分析和asn.1 editor nt5inf.cat 的总览信息
  • 机器学习回顾——逻辑回归
  • Consul 操作命令汇总 - Prometheus服务注册
  • 计算机视觉与深度学习 | 视觉里程计技术全景解析:从原理到前沿应用
  • 2024年09月 Python(四级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 项目一系列-第8章 性能优化Redis基础
  • 星链调查(SOS)线上问卷调查:全流程标准化实践与核心优势深挖
  • 第三届机械工程与先进制造智能化技术研讨会(MEAMIT2025)
  • 【NJU-OS-JYY笔记】操作系统:设计与实现
  • 锂电池充电芯片 XSP30支持PD/QC等多种快充协议支持最大充电电流2A
  • Origin绘制四元相图