当前位置: 首页 > web >正文

002大模型基础知识

在这里插入图片描述

自回归模型

Autoregressive model ,AR

Decoder only

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

1.什么是自回归模型?
从左到右侧学习的模型,只能利用上下文的信息。

2.GPT模型的核心架构?
Transformer 的Decoder 模块(去除中间的第二个子层)

3.GPT的预训练任务?
无监督的预训练 和 有监督任务的微调

序列到序列模型

sequence to sequence Model

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大模型微调的工作量大部分在: 数据处理。

code is cheap show me your talk
提示词

怎么和大模型对话很重要,得到这些效果和代码

Prompt 提示词工程

RAG向量数据库: milvus

应用开发 RAG 知识库 微调
基础设置 推理优化 国产模型适配 ,国产GPU适配

1.大模型 基座模型开发
2.infra 基础设施,推理框架 国产GPU适配
3.应用开发 RAG知识库 智能体Agent

应用最多!!!


为什么现在的大模型都是 Decoder-only?
在这里插入图片描述
双向注意力 和 交叉注意力 的区别? 是Encoder - decoder 连接的时候是交叉注意力

LLM的主要架构类别?
Encoder-Only,Decoder-Only, Encoder–Decoder

Transformer
Encoder-only:
Bert为代表,chatgpt火起来之后,大多数NLP的工作都是围绕Bert展开的
双向注意力机制, 存在低秩问题。
应用场景:完形填空,阅读理解等

Decoder Only:
GPT预测下一个词、生成任务

Encoder-Decoder:需要两套,训练起来比较麻烦
T5, 全能选手, Test-to-text 范式

目前大模型都是Decoder-Only:
工程简洁,训练稳定
涌现,scaling law 足够大的Decoder-only自己能训练出深刻的理解能力

自编码模型的基本原理:
在输入中随机MASK掉一部分单词,根据上下文预测这个词

自回归模型的基本原理:
从左往右学习的模型,只能利用上下文或者下文的信息

序列到序列模型的基本原理:
同时使用编码器和 解码器,它将每个task视为序列到序列的转换/生成
在这里插入图片描述


GPT-2

在这里插入图片描述
在这里插入图片描述
上下文:号称100万,但是也就几十万
主流的闭源模型 10 万 以内 没问题

在这里插入图片描述
在这里插入图片描述
GPT-2的核心思想是:
当模型的容量非常大且数据量足够丰富时,仅仅靠语言模型的学习便可以完成其他有监督学习的任务,不需要再下游任务微调。

在这里插入图片描述
在这里插入图片描述
GPT-2模型的特点:
在这里插入图片描述
在这里插入图片描述
GPT-2
zero-shot新范式
pre-train+fine tuning
模型架构调整 LN层前置,所有Decoder输出后再加一层LN

GPT-3模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
GPT-3
few shot,one-shot, 举一个,几个例子,配合Prompt提示词 in context learning
sparse attention

http://www.xdnf.cn/news/15433.html

相关文章:

  • 认识String、StringBuffer、StringBuilder
  • vue3 el-select默认选中
  • 【设计模式】策略模式(政策(Policy)模式)
  • 从 Manifest V2 升级到 Manifest V3 的注意事项
  • Cursor三大核心AI功能
  • 详解缓存淘汰策略:LFU
  • JS红宝书pdf完整版
  • mac上BRPC的CMakeLists.txt优化:解决Protobuf路径问题
  • SCTP协议网络编程
  • 【算法】贪心算法:柠檬水找零C++
  • Redis 命令总结
  • SpringBoot3-Flowable7初体验
  • Java 内部类详解:从基础到实战,掌握嵌套类、匿名类与局部类的使用技巧
  • Vivado ILA抓DDR信号(各种IO信号:差分、ISERDES、IOBUFDS等)
  • MYSQL笔记2
  • 4. MyISAM vs InnoDB:深入解析MySQL两大存储引擎
  • 39.Sentinel微服务流量控制组件
  • 论文笔记:AnImitation Learning Approach for Cache Replacement
  • Prometheus Operator:Kubernetes 监控自动化实践
  • 深入解析Hadoop架构设计:原理、组件与应用
  • Java 高级特性实战:反射与动态代理在 spring 中的核心应用
  • ADB 调试日志全攻略:如何开启与关闭 `ADB_TRACE` 日志
  • 面试150 二叉树展开为链表
  • Redis面试精讲 Day 2:Redis数据类型全解析
  • 【操作系统-Day 5】通往内核的唯一桥梁:系统调用 (System Call)
  • 【DVWA系列】——File Upload——low详细教程(webshell工具冰蝎)
  • MySQL SQL语句精要:DDL、DML与DCL的深度探究
  • ROS2---NodeOptions
  • 01.深入理解 Python 中的 if __name__ == “__main__“
  • vue是什么