当前位置: 首页 > backend >正文

蒸馏微调DeepSeek-R1-Distill-Qwen-7B

数据集:中文基于满血DeepSeek-R1蒸馏数据集(Chinese-Data-Distill-From-R1)
中文数据集中的数据分布如下:
Math:共计36568个样本,
Exam:共计2432个样本,
STEM:共计12648个样本,
General:共计58352,包含弱智吧、逻辑推理、小红书、知乎、Chat等。
数据样例
在这里插入图片描述
基于unsloth进行微调
微调过程及显存占用
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
微调后推理测试
在这里插入图片描述
推理显存占用
在这里插入图片描述

在通用数据集上微调很成功,但是,在专业数据集上微调却不行,我使用控制变量进行了许多次测试,都无法得到好的效果,无论是回答格式,还是回答内容,都无法使用。至少在华为910上是这样

http://www.xdnf.cn/news/14414.html

相关文章:

  • 大模型笔记3:通过插件增强大模型的能力
  • Iceberg与Hive集成深度
  • 【FreeRTOS-信号量】
  • LLM对话框项目 EventSource封装和MessageServiceClass流式展示封装
  • MFE微前端高级版:Angular + Module Federation + webpack + 路由(Route way)完整示例
  • vue相关爬坑总结
  • [windows工具]OCR多区域识别导出excel工具1.2版本使用教程及注意事项
  • 变幻莫测:CoreData 中 Transformable 类型面面俱到(四)
  • 深度神经网络学习
  • 设计模式-装饰器模式
  • React-router 路由历史的模式和原理
  • AI 神经网略小白学习笔记(一) -- 环境搭建
  • 【1】Redis 缓存穿透原理和解决方案
  • [AAAI Oral] 简单通用的公平分类方法
  • React-router 多类型历史记录栈
  • 《仿盒马》app开发技术分享-- 回收金提现安全锁校验(端云一体)
  • NodeJS中老生代和新生代和垃圾回收机制
  • Arduino入门教程:6、计时与定时
  • 阿帕奇基金会软件授权与公司贡献者许可协议(中英双语版)
  • (笔记)1.web3学习-区块链技术
  • Web3-代币ERC20/ERC721以及合约安全溢出和下溢的研究
  • EXCEL破解VBA密码 ( 仅供学习研究使用)
  • [VSCode] VSCode 设置 python 的编译器
  • 40-Oracle 23 ai Bigfile~Smallfile-Basicfile~Securefile矩阵对比
  • NodeJS里经常用到require,require的模块加载机制是什么
  • lua版的Frpc
  • go.work
  • 车载通信架构 --- IP ECU 在连接被拒绝后的重连机制
  • Spring Cloud Gateway 全面学习指南
  • 论文略读:MLPs Learn In-Context on Regression and Classification Tasks