当前位置: 首页 > ai >正文

一个结合了Deepseek-R1和V3能力的混合推理模型:DeepSeek-R1T-Chimera

开源:

DeepSeek-R1T-Chimera,一个开放权重模型,结合了 R1 的智能和 V3 的tokens输出效率,在deepseek-V3-0324 具有新颖的构造方法。

效率:

在基准测试中,它似乎与 R1 一样智能,但速度要快得多,使用的输出令牌减少了 40%。

结构:

Chimera 是一个子 LLM,使用 V3s 共享专家,并通过 R1 和 V3s 路由专家的自定义合并进行增强。它不是微调或蒸馏,而是由两个父 MoE 模型的神经网络部分构建的。开发者表示没有检测到混合子模型的缺陷,并表示它的推理和思维过程似乎比 R1 父模型有时非常漫长和游离的思想更加紧凑和有序。

架构:

基于 Transformer 的 DeepSeek-MoE 语言模型

组合方法:

合并 DeepSeek-R1 和 DeepSeek-V3 的模型权重 (0324)

发行日期:

2025-04-27

http://www.xdnf.cn/news/2563.html

相关文章:

  • 【Python Web开发】03-HTTP协议
  • Python 正则表达式 re 包
  • 1.文档搜索软件Everything 的使用介绍
  • pdf.js移动端预览PDF文件时,支持双指缩放
  • uniapp实现统一添加后端请求Header方法
  • .NET8配置组件
  • Google Earth Engine 中地形晕渲图(Hillshade)的实现与应用
  • Java SE(4)——方法详解
  • Rust 学习笔记:关于切片的两个练习题
  • 复现:Mamba-UNet:降水临近预报的创新解决方案
  • LBS服务(基于位置的服务)与LLM(大型语言模型)交互功能分析
  • Vue+Echarts 3D地图效果
  • 配置扩展ACL
  • 前端连接websocket服务报错 Unexpected response code: 301
  • GTC2025全球流量大会:领驭科技以AI云端之力,助力中国企业出海破浪前行
  • Typecho博客使用阿里云cdn和oss:handsome主题进阶版
  • Vue 中局部指令(directives)的用法详解
  • STM32 RTC配置
  • JavaScript 中的类(Class)语法
  • Vue 组件通信方式总览
  • OpenCV 图形API(70)图像与通道拼接函数-----创建一个图像或矩阵(GMat)的副本的操作函数copy()
  • Maven多模块工程版本管理:flatten-maven-plugin扁平化POM
  • 打火机检测数据集VOC+YOLO格式925张1类别
  • 使用POI和EasyExcel使用导入
  • 实战指南:搭建AIRIOT全场景智慧养老管理平台系统全流程解析
  • 2025系统架构师---基于规则的系统架构风格‌
  • 【硬件系统架构】哈佛架构
  • Linux 内核网络协议栈中的关键数据结构:inet_skb_parm 与 ip_options
  • 媒体查询使用
  • 《Go 语言高并发爬虫开发:淘宝商品 API 实时采集与 ETL 数据处理管道》