当前位置: 首页 > news >正文

Qwen系列模型

在这里插入图片描述

Qwen 1 / 1.5 系列模型技术解析

通义千问(Qwen)1 系列模型采用经典的 Transformer 解码器架构,是标准的自回归大语言模型框架。在此基础上,Qwen 引入了一些改进和定制设计:

  • Transformer Decoder 架构
  • 分组查询注意力(Grouped Query Attention, GQA)
  • RoPE:
    Qwen 在实现中使用了 FP32 精度 来计算 RoPE 的频率矩阵,以确保在长上下文情况下的数值稳定性和精度。这为后续扩展上下文长度打下基础。
  • 词典输入输出投影权重不共享参数:
    实验发现这可以提升模型效果,但代价是略增内存消耗。
  • 去 Bias 处理:
    以简化模型和提高训练稳定性。但在注意力层的 Q、K、V 投影中保留了偏置。研究表明,在 QKV 添加偏置有助于增强模型长上下文外推能力(即在上下文长度超出训练范围时保持稳定的注意力分布)。
  • Pre-Norm与 RMSNorm
  • SwiGLU与FFN隐藏层从4倍到3倍:
    以配合GLU的门控机制减少参数量,但性能无明显损失。
  • NTK 插值方法和窗口化注意力策略扩展上下文长度:
    预训练时通常为2048(部分新版小模型已扩展至8192),推理阶段通过无需重新训练的技巧实现了长上下文扩展。

https://blog.csdn.net/weixin_59191169/article/details/148560050

http://www.xdnf.cn/news/1258309.html

相关文章:

  • 【洛谷题单】--分支结构(一)
  • Python day37
  • 如何在NVIDIA H100 GPU上用Ollama以最高性能运行大语言模型
  • 【MySQL基础篇】:MySQL事务并发控制原理-MVCC机制解析
  • 跨境电商增长突围:多维变局下的战略重构与技术赋能
  • P1690 贪婪的 Copy
  • Elcomsoft Wireless Security Auditor 安装教程-安全检测工具使用指南
  • 鸿蒙 - 分享功能
  • 【unity实战】使用Unity程序化生成3D随机地牢(附项目源码)
  • Redis 分布式Session
  • RAGAS:检索增强生成系统的无参考评估框架与技术解析
  • 知识随记-----Qt 实用技巧:自定义倒计时按钮防止用户频繁点击
  • Springboot2+vue2+uniapp 小程序端实现搜索联想自动补全功能
  • 数据结构----栈和队列认识
  • 为何毫米波需要采用不同的DPD方法?如何量化其值?
  • Java集合的遍历方式(全解析)
  • Mac/Windows跨平台PDF与AI高效解决方案
  • 数据分析——Pandas库
  • 解决React白板应用中的画布内容丢失问题
  • 哈希表——指针数组与单向链表的结合
  • (附源码)基于Web的物流信息管理系统
  • 【插件式微服务架构系统分享】之 解耦至上:gateway 网关与APISIX 网关的不同分工
  • 深入理解String类:揭秘Java字符串常量池的优化机制
  • 美图复现|Science:添加显著性的GO富集分析美图
  • python selenium环境安装
  • 飞算JavaAI深度解析:Java开发者的智能革命
  • Android Auto开发指南
  • mysql全屏终端全量、部分备份、恢复脚本
  • day28-NFS
  • Springboot2+vue2+uniapp 实现搜索联想自动补全功能