当前位置: 首页 > news >正文

王树森推荐系统公开课 排序02:Multi-gate Mixture-of-Experts (MMoE)

专家模型

与上一节相同,模型的输入是一个向量,包含用户特征物品特征统计特征场景特征,把向量输入三个神经网络,三个神经网络都是由很多全连接层组成,但是并不共享参数,三个神经网络各输出一个向量,分别记作 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3。这三个神经网络被叫作专家,就是 Mixture-of-Experts 中的 Experts。实践中通常不止使用三个专家,这是一个超参数,需要手动调整,通常会试一试四个、八个。
上文输入的向量还会输入另外两一个神经网络,在神经网络的最后加一个 Softmax 激活函数,输出一个三维的向量,之后会作为权重与 x x x 向量加权平均。由于是 Softmax 的输出,向量的三个元素都大于 0,且总和为 1。
在这里插入图片描述

在这里插入图片描述

极化现象

极化(polarize):Softmax 的输出值有一个接近于 1,其余均接近 0。这样没有使所有专家融合,只使用了一个专家。我们不希望这种情况出现。

解决极化问题

一种方法是在 Softmax 的输出使用 dropout,输出的 n n n 个数值被 mask 的概率都是 10%,这样每个专家被随机丢弃的概率都是 10%

注意

MMoE 不一定能提升,有人用了有提升,有人则没有提升,可能是实现的不够好,可能是不适用于特定的业务场景。

http://www.xdnf.cn/news/519211.html

相关文章:

  • 【AI面试秘籍】| 第15期:大模型如何稳定输出合法JSON?
  • 【Linux笔记】——线程同步条件变量与生产者消费者模型的实现
  • GEE谷歌地球引擎批量下载逐日ERA5气象数据的方法
  • 等于和绝对等于的区别
  • LeetCode 394. 字符串解码详解:Java栈实现与逐行解析
  • 第5章 监控与回归测试:日志收集 · 代码覆盖率 · 静态分析 · 质量门
  • Python爬虫实战:通过PyExecJS库实现逆向解密
  • 院士方复全数学命题证明采用预期理由和循环论证以及类比的错误方法
  • web页面布局基础
  • 【动态规划】路径问题
  • STM32八股【9】-----volatile关键字
  • vim - v
  • Python数据可视化 - Pyecharts绘图示例
  • 中级统计师-统计学基础知识-第三章 参数估计
  • 【Linux】命令行参数和环境变量
  • 【PyQt5实战】五大对话框控件详解:从文件选择到消息弹窗
  • 【typenum】 11 私有模块(private.rs)
  • 【Redis实战篇】Redis消息队列
  • 10.9 LangChain LCEL革命:43%性能提升+声明式语法,AI开发效率飙升实战指南
  • 深入理解递归算法:Go语言实现指南
  • C44-练习
  • 全基因组关联研究揭示了脑淋巴活动的机制
  • Rstudio换皮:自定义彩虹括号与缩进线
  • Python Requests库完全指南:从入门到精通
  • 《C语言中的传值调用与传址调用》
  • 多头自注意力机制—Transformer模型的并行特征捕获引擎
  • 如何畅通需求收集渠道,获取用户反馈?
  • c++多线程debug
  • 【android bluetooth 协议分析 01】【HCI 层介绍 6】【WriteLeHostSupport命令介绍】
  • 2.1.2