当前位置：首页 > news >正文

【读代码】从预训练到后训练：解锁语言模型推理潜能——Xiaomi MiMo项目深度解析

news 2025/6/6 13:34:15

项目开源地址：https://github.com/XiaomiMiMo/MiMo
在这里插入图片描述

一、基本介绍

Xiaomi MiMo是小米公司开源的7B参数规模语言模型系列，专为复杂推理任务设计。项目包含基础模型（MiMo-7B-Base）、监督微调模型（MiMo-7B-SFT）和强化学习模型（MiMo-7B-RL）等多个版本。其核心创新在于通过全流程优化解锁模型的推理潜力：

技术亮点：

预训练阶段：优化数据管道，提升推理模式密度
训练目标：引入多token预测（MTP）加速推理
后训练阶段：创新性代码奖励机制与数据重采样策略
工程优化：无缝rollout引擎实现1.9倍训练加速

性能表现：

在AIME2024数学竞赛达到68.2%准确率（超过DeepSeek R1）
LiveCodeBench v5代码基准57.8%准确率
推理速度提升90%（MTP加速）

二、快速上手

环境配置

# 使用官方推荐环境
conda create -n mimo python=3.10
conda activate mimo
pip install vllm>=0.7.3 torch==2.3.0

基础推理示例

from vllm import LLM, SamplingParamsmodel = LLM("XiaomiMiMo/MiMo-7B-RL",trust_remote_code=True,num_speculative_tokens=1)prompt = "解方程：x² -5x +6 = 0"
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)outputs

查看全文

http://www.xdnf.cn/news/867475.html

【android bluetooth 协议分析 12】【A2DP详解 2】【开启ble扫描-蓝牙音乐卡顿分析】

光伏防逆流控制方案

.NET Core接口IServiceProvider

Spring Boot MVC自动配置与Web应用开发详解

Asp.net Core 通过依赖注入的方式获取用户

全志A40i android7.1 调试信息打印串口由uart0改为uart3

六种高阶微分方程的特解(原创：daode3056)

Java观察者模式深度解析：构建松耦合事件驱动系统的艺术

NC28 最小覆盖子串【牛客网】

基于Axure+墨刀设计的电梯管理系统云台ERP的中保真原型图

Apache APISIX

CMake入门：3、变量操作 set 和 list

深度学习项目之RT-DETR训练自己数据集

通过模型文件估算模型参数量大小

Flask框架详解：轻量高效的Python Web开发利器

深入解析Oracle SQL调优健康检查工具（SQLHC）：从原理到实战优化

intense-rp-api开源程序是一个具有直观可视化界面的 API，可以将 DeepSeek 非正式地集成到 SillyTavern 中

Windows系统工具：WinToolsPlus 之 SQL Server Suspect/质疑/置疑/可疑/单用户等修复

stress 服务器压力测试的工具学习

linux操作系统---网络协议

LeetCode 3370.仅含置位位的最小整数

二维根据矩阵变换计算镜像旋转角度

短剧+小说网盘搜索系统(支持全网网盘转存拉新)

《T/CI 404-2024 医疗大数据智能采集及管理技术规范》全面解读与实施分析

[ Qt ] | 与系统相关的操作(二)：键盘、定时器、窗口移动和大小

虚拟机CentOS 7 网络连接显示“以太网（ens33，被拔出）“、有线已拔出、CentOS7不显示网络图标

【Unity】R3 CSharp 响应式编程 - 使用篇（集合）（三）

Async-profiler 内存采样机制解析：从原理到实现

Elasticsearch中什么是分析器（Analyzer）？它由哪些组件组成？

2025年- H68-Lc176--46.全排列(回溯,组合）--Java版

一、基本介绍

二、快速上手

环境配置

基础推理示例

相关文章：