当前位置：首页 > news >正文

论文笔记：Tuning Language Models by Proxy

news 2025/7/25 10:47:08

COLM 2024

1 INTRO

尽管大型预训练语言模型（如 GPT-4、LLAMA2 等）具有很强的通用能力，但它们仍然需要进一步的微调来更好地完成特定任务，比如：

遵循指令（instruction-following）
适应特定领域（如代码、法律等）
执行具体任务（如问答、数学推理）

问题是：

这些微调成本高昂，资源需求大；
对于闭源模型（如 GPT-4），用户甚至无法访问其参数，无法直接微调。

论文提出了Proxy-tuning
- 一种 “推理时调整（decoding-time adaptation）” 的方法，不需要修改大模型的权重，仅需访问其 输出的 token 分布（logits）。
- 基本思想是
  - 微调一个 小模型（称为 expert，专家模型）；
  - 将其与原始小模型（称为 anti-expert，反专家）对比；
  - 将它们的预测差异用于 引导大模型的输出，以模仿微调后模型的行为。

2 方法

假设我们有一个预训练模型，我们希望对它进行调优。
- 对于任意输入，我们假设可以访问其对整个词表的输出 logits。
- 我们的问题是：如何在不需要修改其参数的情况下，引导 $\mathcal{M}$ 表现得像一个已经被调优过的模型？
我们假设存在一个小型的预训练模型，我们将其直接微调，得到。
- 注意， $\mathcal{M}^-$ 不必与 $\mathcal{M}$ 属于同一个模型家族；我们只要求它们共享同一个词表。
- Proxy-tuning 的运作方式是：在大模型 $\mathcal{M}$ 的输出分布上，为每个 token 加上一个 logit 偏移量，这个偏移量由 $\mathcal{M}^+$ 与 $\mathcal{M}^-$ 的 logits 差值决定。

3 实验结果

指令微调（Instruction-tuning）
- 目标：让大模型（如 LLAMA2-13B, 70B）具备 LLAMA2-7B-Chat 那样的指令跟随能力。
- 效果：
  - Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距；
  - 在 70B 上缩小了 88% 的差距；
  - 某些任务中甚至 超越了直接微调模型的效果（尤其是知识密集型任务），说明 proxy-tuning 保留了更多原始知识。
领域适应（Domain Adaptation）
- 使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移；
- 在代码基准测试中，提升了 17–32% 的准确率。
任务微调（Task Finetuning）
- 应用于问答、数学推理等；
- Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%；
- 同时也超过了微调的 7B 模型 9%，说明结合大模型的知识和小模型的专长是有效的。

http://www.xdnf.cn/news/1173601.html

相关文章：

简单理解现代Web应用架构：从简单到企业级

解决Spring事务中RPC调用无法回滚的问题

使用idea 将一个git分支的部分记录合并到git另一个分支

Elasticsearch(ES)安装

系统架构师：软件工程-思维导图

通用表格识别技术的应用，深刻改变人们处理表格数据的方式

【读代码】Facebook Denoiser：开源端到端语音降噪系统原理与实战

红宝书单词学习笔记 list 76-100

开源 Arkts 鸿蒙应用开发（十）通讯--Http数据传输

Oracle物化视图详解

Linux权限机制：设计哲学、实现原理与安全实践

算法-＞两正方形共占的面积

【Redis】在Ubentu环境下安装Redis

docker的镜像与推送

2025最新Mybatis-plus教程（二）

Packmol聚合物通道模型建模方法

半导体 CIM（计算机集成制造）系统

高亮匹配关键词样式highLightMatchString、replaceHTMLChar

Google DeepMind发布MoR架构：50%参数超越传统Transformer，推理速度提升2倍

OpenLayers 快速入门（七）矢量数据

Linux 环境下安装 MySQL 8.0.34 二进制详细教程附docker+k8s启动

亚马逊广告优化技巧:如何减少预算浪费

软件性能测试全景图：十维质量保障体系

Redis--多路复用

CI/CD与DevOps集成方法

删除远程分支上非本分支的提交记录

ElasticSearch基础数据管理详解

基于Python（Django）+MongoDB实现的（Web）新闻采集和订阅系统

数据结构自学Day13 -- 快速排序--“挖坑法”

Java冒泡排序的不同实现