当前位置: 首页 > news >正文

深度学习-159-综述之混合专家模型和推理模型以及工作流和智能体的概念

文章目录

  • 1 专家混合模型(MoE)
    • 1.1 专家
    • 1.2 路由器
    • 1.3 稀疏和密集MoE
  • 2 混合推理模型
    • 2.1 快思考模式
    • 2.2 慢思考模式
    • 2.3 两种模式的切换
    • 2.4 混合推理模型Qwen3
  • 3 工作流和智能体
    • 3.1 工作流(Workflow)
    • 3.2 智能体(Agent)
    • 3.3 两者的关系
    • 3.4 如何选择
    • 3.5 几个问题
      • 3.5.1 大模型本身是不是智能体
      • 3.5.2 大模型+MCP是不是智能体
  • 4 参考附录

专家混合模型是属于LLM模型架构层面的概念。混合推理模型属于模型应用层面,在快速响应和复杂推理之间切换。一个智能体=多个工作流的组合,智能体可以拆解为多个子任务,而每个子任务可能是一个工作流。

1 专家混合模型(MoE)

专家混合模型(Mixture of Experts, MoE)是一种特殊的神经网络架构,它通过将输入数据分配给多个“专家”子网络来处理复杂问题。每个专家负责学习输入数据的一个特定方面或模式,而一个门控网络决定如何将输入分配给这些专家,并最终结合他们的输出。

专家混合模型(Mixture of Experts, MoE)的两个主要组成部分——专家(Experts)和路由器(Router)。
在这里插入图片描述
专家混合模型(MoE)是一种通过使用多个不同的子模型(或“专家”)来提升LLM质量的技术。

MoE的两个主要组成部分为:
(1)专家(Experts):每个前馈神经网络层(FFNN)现在都有一组可以选择的“专家”。这些“专家”通常本身也是前馈神经网络(FFNN)。

(2)路由器或门控网络(Router或Gate Network):决定哪些token被发送到哪些专家。

最后还有一个组合策略࿱

http://www.xdnf.cn/news/347221.html

相关文章:

  • Elastic:如何构建由 AI 驱动的数字客户体验策略
  • 计算机网络-LDP工作过程详解
  • 代码随想录算法训练营第60期第三十天打卡
  • C++之set和map的运用
  • MySQL 数据库
  • AI人工智能在交通物流领域的应用
  • web 自动化之 Selenium 元素定位和浏览器操作
  • 探索 C++ 在行业应用与技术融合中的核心价值
  • Baklib构建AI就绪知识管理体系
  • 湖北理元理律师事务所的企业债务重组实践:挽救实体经济的法律处方
  • B站pwn教程笔记-8
  • 验证码(笔记)
  • IndoorLink 新一代旗舰电子讲解器,四大革新技术开启破冰之旅
  • Spring AI 入门(持续更新)
  • RDD实现单词计数
  • mybatis-plus-join-boot-starter依赖解决 Join 联表查询
  • Linux复习笔记(二) 网络服务配置(samba /DNS)
  • DeepSeek+Kimi实战:PPT制作教程
  • 多智能体学习CAMEL-调用api
  • 阀门产业发展方向报告(石油化工阀门应用技术交流大会)
  • Linux 常用命令 - tftp【简单文件传输协议】
  • 超大规模SoC后仿真流程与优化
  • python 接收c++的.so传的jsoncpp字符串
  • springBoot2集成mybatis (手敲学习版)java入门友好
  • 网络原理初识
  • 海外版“咸鱼”——Vinted跨境店铺防封攻略
  • DeepSeek 赋能法律行业:从文书撰写到风险预警的智能实践
  • window 显示驱动开发-处理内存段(一)
  • mysql的访问IP被禁 locked because of many connection errors
  • vue-grid-layout实现拖拽修改工作台布局