当前位置: 首页 > web >正文

DeepSeek实战--各版本对比

1.对比

版本参数量优势劣势使用场景竞品
DeepSeek-V36710亿(MoE架构,激活370亿)开源、高效推理(60 TPS)、低成本(API费用低)、中文处理能力突出(90%准确率多模态能力有限通用任务(聊天、编码、多语言翻译)、长文本处理、编程竞赛GPT-4o(通用性稍弱,但成本更低)、Claude 3.5 Sonnet
DeepSeek-R1(满血版)6710亿(全激活)复杂逻辑推理(数学、编程)、支持多模态、展示推理过程部署成本高、推理速度慢、代码生成稳定性欠佳科研前沿、决策支持、教育工具(如数学竞赛、密码解密)OpenAI o1(推理能力接近)、Google Gemini Advanced
DeepSeek-R1(蒸馏版)1.5B–32B低成本部署、响应速度快、适合资源受限环境推理能力弱于满血版,精度有所牺牲企业客服、移动端应用(如智能家居)、实时交互场景GPT-3.5 Turbo(性价比更高)、Llama 2-7B
DeepSeek-V22360亿中文能力领先开源模型、轻量化设计、训练成本低(GPT-4的1%)多模态支持有限、推理速度较慢中文NLP任务(法律分析、医学研究)、多任务场景GPT-4(中文能力更强)、LLaMA3-70B(英文相当)
DeepSeek-VL10亿–45亿(多规格)多模态融合(图文联合处理)、小参数高性能参数规模较小,复杂任务处理有限视觉问答(VQA)、文档理解、OCRLLaVA(性能更优)、GPT-4V(多模态能力更强)
DeepSeek-Coder670亿代码生成准确性高(HumanEval通过率65.2%)、支持多编程语言复杂推理能力弱于通用模型代码补全、纠错、生成(软件开发、教育)GitHub Copilot(功能相似但更灵活)、CodeLlama

截止:2025/05/02

2.什么是蒸馏?

1)知识迁移机制
大模型蒸馏借鉴“师生教学”模式,教师模型通过输出软标签(概率分布)、中间层特征或注意力权重,指导学生模型的学习。软标签不仅包含类别信息,还传递类别间的关系,使学生模型能捕捉更复杂的决策逻辑。

  • 软标签:教师模型输出的概率分布,通过温度参数(Temperature)调整平滑程度,增强学生模型对模糊边界的理解。
  • 中间层对齐:模仿教师模型的隐藏层激活或注意力机制,提升学生模型的内部特征表达能力。

2)实施步骤

  • 训练教师模型:先训练一个高性能的大模型(如GPT-4、DeepSeek-R1)。
  • 生成软标签:用教师模型对训练数据推理,生成包含知识输出的软标签。
  • 训练学生模型:结合软标签和真实标签,通过损失函数(如KL散度与交叉熵的加权组
    合)优化学生模型。

3.DeepSeek 可以做什么 ?

借用清华大学的总结,说明一下

在这里插入图片描述
链接:https://pan.quark.cn/s/3e804ec46889#/share/doc/560b7613c3f84a3c8c88baad0f25dbfd

http://www.xdnf.cn/news/3543.html

相关文章:

  • 【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI
  • [原创](现代Delphi 12指南):[macOS 64bit App开发]: [2]如何使用跨平台消息框?
  • 低代码/AI是否会取代前端开发?
  • C++之类和对象基础
  • 开启 Spring AI 之旅:从入门到实战
  • 【c++】【STL】priority_queue详解
  • 网络原理 - 13(HTTP/HTTPS - 4 - HTTPS)
  • 敏感词 v0.25.0 新特性之 wordCheck 策略支持用户自定义
  • Linux52 运行百度网盘 解决故障无法访问repo nosandbox 未解决:疑似libstdc++版本低导致无法运行baidu网盘
  • 兰亭妙微分享:B 端设计如何实现体验跃迁
  • [吾爱出品] 网文提取精灵_4.0
  • 2.4 GHz频段的11个信道通过 5 MHz中心频率间隔 实现覆盖
  • 开闭原则(OCP)
  • Qt/C++开发监控GB28181系统/云台控制/获取预置位信息/添加删除调用预置位
  • 为美好的XCPC献上典题 ABC359 G - Sum of Tree Distance(根号分治)
  • JVM性能调优的基础知识 | JVM内部优化与运行时优化
  • 3033. 修改矩阵
  • 2025年- H19-Lc127-48.旋转矩阵(矩阵)---java版
  • Rust 学习笔记:关于枚举与模式匹配的练习题
  • 菜鸟之路Day29一一MySQL之DDL
  • LeetCode 560. 和为 K 的子数组 | 前缀和与哈希表的巧妙应用
  • [machine learning] Transformer - Attention (一)
  • 第5篇:EggJS中间件开发与实战应用
  • 【计算机网络网络层深度解析】从IP协议到路由优化
  • C++ 复习
  • Servlet 解决了什么问题?
  • 重构之道:识别并替换不合适使用的箭头函数
  • Linux中的权限
  • 【中间件】brpc_基础_butex.h
  • Python装饰器执行时机详解:模块加载时的魔法