当前位置: 首页 > news >正文

【读代码】从预训练到后训练:解锁语言模型推理潜能——Xiaomi MiMo项目深度解析

项目开源地址:https://github.com/XiaomiMiMo/MiMo
在这里插入图片描述

一、基本介绍

Xiaomi MiMo是小米公司开源的7B参数规模语言模型系列,专为复杂推理任务设计。项目包含基础模型(MiMo-7B-Base)、监督微调模型(MiMo-7B-SFT)和强化学习模型(MiMo-7B-RL)等多个版本。其核心创新在于通过全流程优化解锁模型的推理潜力:

技术亮点

  • 预训练阶段:优化数据管道,提升推理模式密度
  • 训练目标:引入多token预测(MTP)加速推理
  • 后训练阶段:创新性代码奖励机制与数据重采样策略
  • 工程优化:无缝rollout引擎实现1.9倍训练加速

性能表现

  • 在AIME2024数学竞赛达到68.2%准确率(超过DeepSeek R1)
  • LiveCodeBench v5代码基准57.8%准确率
  • 推理速度提升90%(MTP加速)

二、快速上手

环境配置

# 使用官方推荐环境
conda create -n mimo python=3.10
conda activate mimo
pip install vllm>=0.7.3 torch==2.3.0

基础推理示例

from vllm import LLM, SamplingParamsmodel = LLM("XiaomiMiMo/MiMo-7B-RL",trust_remote_code=True,num_speculative_tokens=1)prompt = "解方程:x² -5x +6 = 0"
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)outputs 
http://www.xdnf.cn/news/867475.html

相关文章:

  • 【android bluetooth 协议分析 12】【A2DP详解 2】【开启ble扫描-蓝牙音乐卡顿分析】
  • 光伏防逆流控制方案
  • .NET Core接口IServiceProvider
  • Spring Boot MVC自动配置与Web应用开发详解
  • Asp.net Core 通过依赖注入的方式获取用户
  • 全志A40i android7.1 调试信息打印串口由uart0改为uart3
  • 六种高阶微分方程的特解(原创:daode3056)
  • Java观察者模式深度解析:构建松耦合事件驱动系统的艺术
  • NC28 最小覆盖子串【牛客网】
  • 基于Axure+墨刀设计的电梯管理系统云台ERP的中保真原型图
  • Apache APISIX
  • CMake入门:3、变量操作 set 和 list
  • 深度学习项目之RT-DETR训练自己数据集
  • 通过模型文件估算模型参数量大小
  • Flask框架详解:轻量高效的Python Web开发利器
  • 深入解析Oracle SQL调优健康检查工具(SQLHC):从原理到实战优化
  • intense-rp-api开源程序是一个具有直观可视化界面的 API,可以将 DeepSeek 非正式地集成到 SillyTavern 中
  • Windows系统工具:WinToolsPlus 之 SQL Server Suspect/质疑/置疑/可疑/单用户等 修复
  • stress 服务器压力测试的工具学习
  • linux操作系统---网络协议
  • LeetCode 3370.仅含置位位的最小整数
  • 二维 根据矩阵变换计算镜像旋转角度
  • 短剧+小说网盘搜索系统(支持全网网盘转存拉新)
  • 《T/CI 404-2024 医疗大数据智能采集及管理技术规范》全面解读与实施分析
  • [ Qt ] | 与系统相关的操作(二):键盘、定时器、窗口移动和大小
  • 虚拟机CentOS 7 网络连接显示“以太网(ens33,被拔出)“、有线已拔出、CentOS7不显示网络图标
  • 【Unity】R3 CSharp 响应式编程 - 使用篇(集合)(三)
  • Async-profiler 内存采样机制解析:从原理到实现
  • Elasticsearch中什么是分析器(Analyzer)?它由哪些组件组成?
  • 2025年- H68-Lc176--46.全排列(回溯,组合)--Java版