当前位置: 首页 > news >正文

论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型

  •  层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势: 
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ——>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ——>用轻量级网络替换修剪层比训练剩余层更简单
http://www.xdnf.cn/news/707023.html

相关文章:

  • Spring Security架构中过滤器的实现
  • 设计模式-代理模式
  • 零基础开始的网工之路第十六天------Linux安全管理
  • 电路图识图基础知识-电路接线图(八)
  • 回调函数的理解
  • 人工智能在智能城市中的创新应用与未来趋势
  • 汽车制造场景下Profibus转Profinet网关核心功能与应用解析
  • HarmonyOS NEXT~鸿蒙开发能力:HarmonyOS SDK AI 全解析
  • 软考-系统架构设计师-第九章 系统架构设计基础知识
  • 美化显示GDB调试的数据结构
  • 【循环神经网络RNN第一期】循环神经网络RNN原理概述
  • 前人栽树,后人乘凉——AdaBoost
  • 2025年- H56-Lc164--200.岛屿数量(图论,深搜)--Java版
  • 美团启动618大促,线上消费节被即时零售传导到线下了?
  • 知识隔离的视觉-语言-动作模型:训练更快、运行更快、泛化更好
  • RabbitMQ集群与负载均衡实战指南
  • PP-OCRv5 C++封装DLL C#调用源码分享
  • 3D PDF如何制作?SOLIDWORKS MBD模板定制技巧
  • 新能源汽车电控系统的精准守护者PKDV5355高压差分探头
  • 【第4章 图像与视频】4.6 结合剪辑区域来绘制图像
  • 纯前端实现图片伪3D视差效果
  • 华为OD机试真题——告警抑制(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现
  • Embedded IDE下载及调试
  • PHP在2025:Web开发领域的常青树与进化之路
  • Selenium基础操作方法详解
  • 分布式CAP理论
  • 拉取gitlab项目
  • mac电脑安装nvm
  • C# 事件的选择与使用
  • 命令模式,观察者模式,状态模式,享元模式