当前位置: 首页 > web >正文

论文略读: CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS

ICLR 2025 oral

  • 随着语言模型(LLMs)的规模不断增长,其词表规模也随之扩大
    • 这导致训练过程中内存占用极度向一个层次倾斜:即交叉熵损失计算中的最后一层
    • 在计算交叉熵损失时,需要构造一个logit 矩阵,其每个条目对应输入 token 与词表中每个词项之间的得分
    • 对于小模型而言,这一操作所占内存甚至比整个 LLM 的其余部分还高出一个数量级
  • ——>论文提出了 Cut Cross-Entropy(CCE),一种在不将完整 logits 写入全局内存的情况下计算交叉熵损失的方法
    • 仅计算目标 token 的 logit,并通过“按需计算”的方式完成 log-sum-exp 操作
    • 实现了一个自定义 kernel,在闪存(flash memory)中完成矩阵乘法和 log-sum-exp 的归约操作,从而使得交叉熵计算的全局内存占用几乎可以忽略不计
  • Gemma 2(20 亿参数)模型为例,CCE 将损失计算的内存占用从 24 GB 降至 1 MB,将整个分类头(classifier head)在训练时的内存消耗从 28 GB 降至 1 GB
http://www.xdnf.cn/news/13290.html

相关文章:

  • YSYX学习记录(八)
  • 【51单片机】5. 矩阵键盘与矩阵键盘密码锁Demo
  • Debian系统简介
  • R7-4 统计单词的个数
  • 电影感户外柔和旅拍Lr调色教程,手机滤镜PS+Lightroom预设下载!
  • C++ 智能指针
  • postgresql搭建与初始化
  • EtherCAT转CC-Link IE协议转换通讯助力库卡机器人与三菱PLC无缝对接
  • 【Linux篇】细品环境变量与地址空间
  • Qt Widget类解析与代码注释
  • day27/60
  • 可靠性+灵活性:电力载波技术在楼宇自控中的核心价值
  • 前端技术 HTML iframe 详细解读
  • 每日算法 -【Swift 算法】删除链表的倒数第 N 个结点
  • 聊聊 Pulsar:Producer 源码解析
  • STL 6分配器
  • 智能文档结构化技术的应用,重塑合同管理模式
  • CSS Modules使用
  • [特殊字符] 以太坊智能合约:原理、执行与核心机制
  • 新能源汽车智慧充电桩管理方案:智能安全识别的实际应用
  • mysql为什么一个表中不能同时存在两个字段自增
  • Q: dify的QA分段方式,question、answer和keywords哪些内容进入向量库呢?
  • 【已解决】python的kafka-python包连接kafka报认证失败
  • 【在线五子棋对战】四、MySQL API 使用
  • 多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度​
  • Llama 4开源项目多维分析研究
  • VUE element table 列合并
  • 目标检测中F1-Score指标的详细解析:深度理解,避免误区
  • Nginx攻略
  • C# vs2022 找不到指定的 SDK“Microsof.NET.Sdk