当前位置: 首页 > news >正文

论文笔记:Tuning Language Models by Proxy

COLM 2024

1 INTRO

尽管大型预训练语言模型(如 GPT-4、LLAMA2 等)具有很强的通用能力,但它们仍然需要进一步的微调来更好地完成特定任务,比如:

  • 遵循指令(instruction-following)

  • 适应特定领域(如代码、法律等)

  • 执行具体任务(如问答、数学推理)

问题是:

  • 这些微调成本高昂,资源需求大;

  • 对于闭源模型(如 GPT-4),用户甚至无法访问其参数,无法直接微调

  • 论文提出了Proxy-tuning
    • 一种 “推理时调整(decoding-time adaptation)” 的方法,不需要修改大模型的权重,仅需访问其 输出的 token 分布(logits)

    • 基本思想是

      • 微调一个 小模型(称为 expert,专家模型);

      • 将其与原始小模型(称为 anti-expert,反专家)对比;

      • 将它们的预测差异用于 引导大模型的输出,以模仿微调后模型的行为。

2 方法

  • 假设我们有一个预训练模型\mathcal{M},我们希望对它进行调优。
    • 对于任意输入,我们假设可以访问其对整个词表的输出 logits。
    • 我们的问题是:如何在不需要修改其参数的情况下,引导 \mathcal{M}表现得像一个已经被调优过的模型?
  • 我们假设存在一个小型的预训练模型\mathcal{M}^-,我们将其直接微调,得到\mathcal{M}^+
    • 注意,\mathcal{M}^- 不必与 \mathcal{M}属于同一个模型家族;我们只要求它们共享同一个词表。
    • Proxy-tuning 的运作方式是:在大模型\mathcal{M}的输出分布上,为每个 token 加上一个 logit 偏移量,这个偏移量由 \mathcal{M}^+\mathcal{M}^- 的 logits 差值决定。

3 实验结果 

  • 指令微调(Instruction-tuning)

    • 目标:让大模型(如 LLAMA2-13B, 70B)具备 LLAMA2-7B-Chat 那样的指令跟随能力。

    • 效果:

      • Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距

      • 在 70B 上缩小了 88% 的差距;

      • 某些任务中甚至 超越了直接微调模型的效果(尤其是知识密集型任务),说明 proxy-tuning 保留了更多原始知识。

  • 领域适应(Domain Adaptation)

    • 使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移;

    • 在代码基准测试中,提升了 17–32% 的准确率

  • 任务微调(Task Finetuning)

    • 应用于问答、数学推理等;

    • Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%

    • 同时也超过了微调的 7B 模型 9%,说明结合大模型的知识和小模型的专长是有效的。

http://www.xdnf.cn/news/1173601.html

相关文章:

  • 简单理解现代Web应用架构:从简单到企业级
  • 解决Spring事务中RPC调用无法回滚的问题
  • 使用idea 将一个git分支的部分记录合并到git另一个分支
  • Elasticsearch(ES)安装
  • 系统架构师:软件工程-思维导图
  • 通用表格识别技术的应用,深刻改变人们处理表格数据的方式
  • 【读代码】Facebook Denoiser:开源端到端语音降噪系统原理与实战
  • 红宝书单词学习笔记 list 76-100
  • 开源 Arkts 鸿蒙应用 开发(十)通讯--Http数据传输
  • Oracle物化视图详解
  • Linux权限机制:设计哲学、实现原理与安全实践
  • 算法->两正方形共占的面积
  • 【Redis】在Ubentu环境下安装Redis
  • docker的镜像与推送
  • 2025最新Mybatis-plus教程(二)
  • Packmol聚合物通道模型建模方法
  • 半导体 CIM(计算机集成制造)系统
  • 高亮匹配关键词样式highLightMatchString、replaceHTMLChar
  • Google DeepMind发布MoR架构:50%参数超越传统Transformer,推理速度提升2倍
  • OpenLayers 快速入门(七)矢量数据
  • Linux 环境下安装 MySQL 8.0.34 二进制 详细教程 附docker+k8s启动
  • 亚马逊广告优化技巧:如何减少预算浪费
  • 软件性能测试全景图:十维质量保障体系
  • Redis--多路复用
  • CI/CD与DevOps集成方法
  • 删除远程分支上非本分支的提交记录
  • ElasticSearch基础数据管理详解
  • 基于Python(Django)+MongoDB实现的(Web)新闻采集和订阅系统
  • 数据结构自学Day13 -- 快速排序--“挖坑法”
  • Java冒泡排序的不同实现