当前位置：首页 > ops >正文

【AI论文】MiniCPM4：在终端设备上实现超高效的大型语言模型（LLMs）

ops 2025/6/18 0:15:35

摘要：本文介绍了MiniCPM4，这是一种专门为终端设备设计的高效大型语言模型（LLM）。我们通过在四个关键维度上进行系统创新来实现这一效率：模型架构、训练数据、训练算法和推理系统。具体而言，在模型架构方面，我们提出了 InfLLM v2，这是一种可训练的稀疏注意力机制，可以加速预填充和解码阶段，以进行长上下文处理。关于训练数据，我们提出了 UltraClean，一种高效准确的预训练数据过滤和生成策略，以及 UltraChat v2，一个全面的监督微调数据集。这些数据集仅使用8万亿个训练令牌就能实现令人满意的模型性能。关于训练算法，我们提出了ModelTunnel v2，用于高效的预训练策略搜索，并通过引入用于负载平衡强化学习和数据高效三元LLM的块式滚动，改进了现有的后训练方法。关于推理系统，我们提出了CPM.cu，它集成了稀疏注意力、模型量化和推测采样，以实现高效的预填充和解码。为了满足不同的设备要求，MiniCPM4有两个版本，分别为0.5B和8B参数。充分的评估结果表明，MiniCPM4在多个基准测试中优于类似大小的开源模型，突出了其效率和有效性。值得注意的是，在处理长序列时，MiniCPM4-8B的速度比Qwen3-8B有显著提高。通过进一步的调整，MiniCPM4成功地为各种应用提供了动力，包括可信赖的调查生成和模型上下文协议的工具使用，清楚地展示了其广泛的可用性。Huggingface链接：Paper page，论文链接：2506.07900

一、研究背景和目的

研究背景：
随着大型语言模型（LLMs）在自然语言处理领域的广泛应用，模型规模的不断扩大导致计算资源需求急剧增加，使得这些模型主要部署在云端服务器上，通过API接口进行访问。然而，随着物联网、移动设备和边缘计算的发展，终端设备（如智能手机、嵌入式系统等）对高效LLMs的需求日益增长。这些设备通常具有有限的计算资源和存储容量，无法直接运行大规模LLMs。因此，开发适用于终端设备的高效LLMs成为当前研究的重要方向。

研究目的：
本文旨在通过系统创新在模型架构、训练数据、训练算法和推理系统四个关键维度上，开发一种专为终端设备设计的高效大型语言模型——MiniCPM4。

具体目标包括：

提出一种可训练的稀疏注意力机制（InfLLM v2），以加速长上下文处理的预填充和解码阶段。
开发高效准确的预训练数据过滤和生成策略（UltraClean），以及全面的监督微调数据集（UltraChat v2），以在有限的训练令牌下实现满意的模型性能。
提出一种高效的预训练策略搜索方法（ModelTunnel v2），并通过引入块式滚动（chunk-wise rollout）来改进现有的后训练方法，实现负载平衡的强化学习和数据高效的三元LLM（BitCPM）。
设计一种集成了稀疏注意力、模型量化和推测采样的高效推理系统（CPM.cu），以实现高效的预填充和解码。
开发两种参数规模的MiniCPM4模型（0.5B和8B），以满足不同终端设备的需求，并在多个基准测试中验证其效率和有效性。

二、研究方法

1. 模型架构创新：

InfLLM v2：提出了一种可训练的稀疏注意力机制，通过动态选择相关的键值块进行注意力计算，显著减少了计算和内存访问开销。该机制在预填充和解码阶段均表现出色，特别是在处理长上下文时，能够有效加速处理速度。
稀疏注意力实现：通过分块键值缓存和动态上下文块选择，InfLLM v2能够在不增加额外参数的情况下，实现高效的稀疏注意力计算。
同时，引入了细粒度语义核来捕捉块级语义，避免了 token-by-token 的相关性计算，进一步提高了效率。

2. 训练数据优化：

UltraClean：提出了一种高效准确的预训练数据过滤和生成策略，通过迭代的数据清洗和验证过程，提高了数据质量。利用FastText分类器进行快速质量过滤，结合高效验证策略，确保了数据集的高质量和多样性。
UltraChat v2：构建了一个全面的监督微调数据集，涵盖了知识应用、推理、指令跟随、长上下文处理和工具使用等多个关键能力维度。
通过多样化的数据生成策略，确保了数据集的广泛覆盖和高质量。

3. 训练算法改进：

ModelTunnel v2：在预训练策略搜索方面，提出了改进的预测缩放方法，通过构建ScalingBench数据集，建立了预训练损失与下游任务性能之间的关系，从而提高了超参数搜索的有效性。
块式滚动（Chunk-wise Rollout）：在后训练阶段，引入了块式滚动策略来优化强化学习过程，通过限制每个滚动阶段的最大输出令牌预算，并在后续阶段恢复未完成的轨迹，显著提高了GPU利用率和训练效率。
BitCPM：提出了一种数据高效的三元LLM训练方法，通过初始化高精度预训练模型的量化阶段，显著降低了量化感知训练（QAT）的成本。
结合ModelTunnel v2，实现了与现有QAT方法相当的性能，但训练令牌数量大幅减少。

4. 推理系统优化：

CPM.cu：设计了一种集成了稀疏注意力、模型量化和推测采样的高效推理框架。通过频率排名词汇表构建和草稿验证（FR-Spec），减少了语言建模头的计算开销；通过前缀感知后训练量化（P-GPTQ），消除了初始令牌对激活量化保真度的影响；结合推测采样和量化，实现了高效的预填充和解码。
ArkInfer：提出了一种跨平台部署系统，通过统一的执行器接口和自适应后端接口，简化了LLMs在不同硬件平台上的部署过程。
集成了多种推理框架和优化技术，支持无缝的跨平台部署和全面的性能评估工具。

三、研究结果

1. 模型性能：

MiniCPM4在多个基准测试中表现出色，特别是在长上下文处理任务上，显著优于类似规模的开源模型。例如，在处理长序列时，MiniCPM4-8B相比Qwen3-8B实现了显著的速度提升。
通过系统创新在模型架构、训练数据、训练算法和推理系统四个维度上的优化，MiniCPM4在保持高效性的同时，也实现了出色的模型性能。

2. 效率提升：

在终端设备上的推理速度方面，MiniCPM4表现出色。
特别是在Jetson AGX Orin和RTX 4090等边缘计算平台上，MiniCPM4实现了显著的加速效果，满足了终端设备对实时性的要求。
通过稀疏注意力机制、模型量化和推测采样的结合使用，CPM.cu推理框架在保持高精度的同时，显著降低了计算开销和内存访问延迟。

3. 应用场景拓展：