当前位置: 首页 > ops >正文

建筑兔零基础人工智能自学记录101|Transformer(1)-14

Transformer

谷歌提出,一组编码-解码器

可以同时处理,通过位置编码来处理单词

实质是token词语接龙(只是有不同的概率)

token对应向量

Transformer简述

 文生图就需要用到transformer黑箱

 

token

 

内部层次

中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的

 

 

   

本质就是线性代数

 

 

 

实质通过矩阵运算

 有不同的矩阵

 嵌入矩阵

 如何推测的举例:1、男人之于女人≈国王之于王后

 如何推测的举例:2、妈妈之于爸爸≈ 女人之于男人

                             3、希特勒+意大利-德国≈ 墨索里尼(从轴心国领导人/意大利两个角度找到)

                             4、寿司+德国-日本≈ 油煎香肠

 点积是表达两个向量是否相近的方式,通过运算结果正负判断

 

 context size就是一次处理向量的数量

 

所以当context size较少时,gpt会出现遗忘了之前说的

解嵌入矩阵

 softmax

补充:另一个transformer介绍,不是很生动。所以只看了开头。

 

 

 

http://www.xdnf.cn/news/10197.html

相关文章:

  • 使用PowerBI个人网关定时刷新数据
  • MySQL强化关键_018_MySQL 优化手段及性能分析工具
  • 11.springCloud AlibabaNacos服务注册和配置中心
  • 【算法训练营Day04】链表part2
  • mkcert实现本地https
  • Kafka 如何保证顺序消费
  • GitHub 趋势日报 (2025年05月30日)
  • DeepSeek 赋能自动驾驶仿真测试:解锁高效精准新范式
  • 前端面经 DNSxieyi1
  • Go语言的context
  • 第4节 Node.js NPM 使用介绍
  • linux 1.0.6
  • BFD 基本工作原理与实践:如何与 VRRP 联动实现高效链路故障检测?
  • 数据库运维管理系统在AI方向的实践
  • 【拓扑排序】P7150 [USACO20DEC] Stuck in a Rut S|普及+
  • AnyTXT Searcher 文档内容搜索工具 v1.3.2034 官方版
  • LeetCode - 面试题 02.04. 分割链表
  • gcc相关内容
  • 单例模式的类和静态方法的类的区别和使用场景
  • python打卡day41
  • bert扩充或者缩小词表
  • 企业AI部署热潮下的安全隐忧:速度与安全的博弈
  • QT入门学习
  • 电脑驱动程序更新工具, 3DP Chip 中文绿色版,一键更新驱动!
  • 【基础算法】高精度(加、减、乘、除)
  • 【iOS】方法交换
  • 【SpringBoot实战】优雅关闭服务
  • 【NLP 78、手搓Transformer模型结构及实战】
  • 34.x64汇编写法(一)
  • stm32——I2C协议