当前位置: 首页 > ds >正文

【知识点】大模型面试题汇总(持续更新)

1. Scaled Dot-Product Attention中的缩放因子(√d)作用

问题:为什么计算QK内积后要除以√d?

答案:
• 核心原因:防止点积结果过大导致softmax进入饱和区(梯度消失)。

• 数学解释:假设Q、K的每个维度是独立零均值、方差为1的随机变量,点积结果的方差为d。缩放后方差恢复为1,稳定梯度。

• 替代方案:初始化时缩小参数方差(如除以√d),但动态缩放更鲁棒。


2. Q/K使用不同权重矩阵的原因

问题:为什么Q和K需要不同的投影矩阵?

答案:

  1. 表达能力:相同矩阵会导致QKᵀ对称,限制模型捕捉非对称关系(如因果性)。
  2. 对角主导:对称矩阵易使注意力过度关注自身位置(对角线值偏大)。
  3. 参数效率:独立投影增加可学习参数,提升模型容量。

3. FFN先升维再降维的设计,FFN的结构是怎么样的?

问题&

http://www.xdnf.cn/news/6541.html

相关文章:

  • SQLPub:一个提供AI助手的免费MySQL数据库服务
  • 智慧化系统安全分析报告
  • AI学习博文链接
  • 12V升24V升压恒压WT3207
  • YOLO格式数据集制作以及训练
  • c++多态面试题之(析构函数与虚函数)
  • 工业操作系统核心技术揭秘
  • sizeof()运算符
  • 嵌入式学习笔记 D21:双向链表的基本操作
  • 系统集成项目管理工程师学习笔记
  • 【日撸 Java 三百行】Day 16(递归)
  • Ubnutu ADB 无法识别设备的解决方法
  • 数据库的锁 - 全局锁、表锁、行锁
  • Vuex和Vue的区别
  • RabbitMQ概述
  • 【ArcGIS技巧】根据地块、界址点图层生成界址线
  • 如何在Edge浏览器里-安装梦精灵AI提示词管理工具
  • MySQL数据类型之VARCHAR和CHAR使用详解
  • 基于大模型预测围术期麻醉苏醒时间的技术方案
  • Ubuntu 安装 Redis
  • 《Adversarial Sticker: A Stealthy Attack Method in the Physical World》论文分享(侵删)
  • A2O娱乐李秀满纪录片首映礼,A2O MAY、少女时代、崔始源、泰民齐聚祝贺
  • 脚本语言Lua
  • 使用PEFT库将原始模型与LoRA权重合并
  • 视频分辨率增强与自动补帧
  • ‌JMeter聚合报告中的任务数和并发数区别
  • 【HarmonyOS 5】鸿蒙mPaaS详解
  • MySQL 开发的智能助手:通义灵码在 IntelliJ IDEA 中的应用
  • Python网络请求利器:urllib库深度解析
  • 单片机-STM32部分:16、Git工具使用