当前位置：首页 > backend >正文

蒸馏微调DeepSeek-R1-Distill-Qwen-7B

backend 2025/6/17 14:52:39

数据集：中文基于满血DeepSeek-R1蒸馏数据集（Chinese-Data-Distill-From-R1）
中文数据集中的数据分布如下：
Math：共计36568个样本，
Exam：共计2432个样本，
STEM：共计12648个样本，
General：共计58352，包含弱智吧、逻辑推理、小红书、知乎、Chat等。
数据样例
在这里插入图片描述
基于unsloth进行微调
微调过程及显存占用

微调后推理测试

推理显存占用

在通用数据集上微调很成功，但是，在专业数据集上微调却不行，我使用控制变量进行了许多次测试，都无法得到好的效果，无论是回答格式，还是回答内容，都无法使用。至少在华为910上是这样

http://www.xdnf.cn/news/14414.html

相关文章：

大模型笔记3：通过插件增强大模型的能力

Iceberg与Hive集成深度

【FreeRTOS-信号量】

LLM对话框项目 EventSource封装和MessageServiceClass流式展示封装

MFE微前端高级版：Angular + Module Federation + webpack + 路由（Route way）完整示例

vue相关爬坑总结

[windows工具]OCR多区域识别导出excel工具1.2版本使用教程及注意事项

变幻莫测：CoreData 中 Transformable 类型面面俱到（四）

深度神经网络学习

设计模式-装饰器模式

React-router 路由历史的模式和原理

AI 神经网略小白学习笔记（一） -- 环境搭建

【1】Redis 缓存穿透原理和解决方案

[AAAI Oral] 简单通用的公平分类方法

React-router 多类型历史记录栈

《仿盒马》app开发技术分享-- 回收金提现安全锁校验（端云一体）

NodeJS中老生代和新生代和垃圾回收机制

Arduino入门教程：6、计时与定时

阿帕奇基金会软件授权与公司贡献者许可协议（中英双语版）

（笔记）1.web3学习-区块链技术

Web3-代币ERC20/ERC721以及合约安全溢出和下溢的研究

EXCEL破解VBA密码 ( 仅供学习研究使用)

[VSCode] VSCode 设置 python 的编译器

40-Oracle 23 ai Bigfile～Smallfile-Basicfile～Securefile矩阵对比

NodeJS里经常用到require，require的模块加载机制是什么

车载通信架构 --- IP ECU 在连接被拒绝后的重连机制

Spring Cloud Gateway 全面学习指南

论文略读：MLPs Learn In-Context on Regression and Classification Tasks