当前位置: 首页 > news >正文

LLaMA 学习笔记

目录

LLaMA模型结构:

模型微调手册:

LLaMA

优化技术

RMSNorm

SwiGLU 激活函数

旋转位置编码(RoPE)


LLaMA模型结构:

llama3 结构详解-CSDN博客

模型微调手册:

大模型微调 LLaMA详细指南(准备环境、数据、配置微调参数+微调过程)_llama 微调-CSDN博客

LLaMA

LLaMA(Large Language Model Meta AI)的拼写误差,这是 Meta(原 Facebook)公司开发的开源大语言模型系列。以下是关于 **LLaMA 架构** 的详细解析:

 **1. LLaMA 简介**
- **全称**:Large Language Model Meta AI  
- **开发方**:Meta AI(Facebook)  
- **特点**:开源、高效、覆盖多种参数量级(7B~70B),专为研究社区设计,性能对标 GPT-3 等商用模型。

 **2. LLaMA 核心架构**
LLaMA 基于 **Transformer 解码器**(类似 GPT),但通过优化提升了效率和性能,关键改进包括:

 **(1)基础结构**
- **自回归模型**:仅使用 Transformer 解码器堆叠,通过掩码注意力实现单向预测。
- **预训练目标**:基于大规模文本的生成任务(预测下一个词)。

优化技术

RMSNorm

替换 Layer Normalization,减少计算量。

SwiGLU 激活函数

替代 ReLU,提升模型表达能力。


旋转位置编码(RoPE)

动态处理序列位置信息,支持更长的上下文窗口。
- **分组查询注意力(GQA)**:在 LLaMA-2 中引入,平衡计算效率与效果。

 **(3)模型规模**
| 版本       | 参数量  | 上下文长度 | 亮点                     |
|------------|--------|------------|--------------------------|
| LLaMA-1    | 7B~65B | 2

http://www.xdnf.cn/news/1092385.html

相关文章:

  • 装配式建筑4.0:当房子像汽车一样被“智造”
  • 数据结构——深度优先搜索与广度优先搜索的实现
  • 人机协同的关键枢纽:软件工程3.0中对象模型与模型驱动的融合路径
  • VSCode配置Cline插件调用MCP服务实现任务自动化
  • langchain从入门到精通(四十一)——基于ReACT架构的Agent智能体设计与实现
  • 陶哲轩:数学界的莫扎特与跨界探索者
  • Lingo软件学习(一)好学爱学
  • Grafana容器化部署
  • 工业通讯网关在电子制造中的核心作用——从DeviceNet到Modbus TCP的智能转换
  • Vue响应式原理三:响应式依赖收集-类
  • 【Python】FastApi
  • 腾讯云COS,阿里云OSS对象存储服务-删除操作的响应码204
  • S7-1500——(一)西门子PLC编程从入门到精通4、SCL间接寻址
  • 项目进度受制于资源分配,如何动态调配资源
  • LeetCode 138题解 | 随机链表的复制
  • 5202年安装TensorFlow纪实
  • 向量空间 线性代数
  • 解锁HTML5页面生命周期API:前端开发的新视角
  • 超越公有云:在裸金属服务器上构建低成本、高性能的静态资源服务
  • STM32 使用HAL库获取us时间
  • 【使用Flask基于PaddleOCR3.0开发一个接口 调用时报错RuntimeError: std::exception】
  • HCIP(综合实验)
  • 代码随想录总结
  • css 设置 input 插入光标样式
  • 20250709: WSL+Pycharm 搭建 Python 开发环境
  • C++11 future、promise实现原理
  • 基于Matlab多特征融合的可视化指纹识别系统
  • 微算法科技从量子比特到多级系统,Qudits技术革新引领量子计算新时代
  • 三、Docker常用命令
  • React、Vue、Angular的性能优化与源码解析概述