当前位置: 首页 > news >正文

LLM(Large Language Model)大规模语言模型浅析

参考: https://zhuanlan.zhihu.com/p/7046080918
LLM(Large Language Model)大规模语言模型,是指具有大规模参数和复杂计算结构的机器学习模型。大模型里常说的多少B, B 是 Billion 的缩写,表示 十亿,如DeepSeek满血版 671B(6710亿参数);
大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。

语言大模型大模型主要分类:
NLP: 自然语言处理,常用于处理文本数据和理解自然语言;
常见模型: GPT系列(OpenAI)、Bard(Google)、文心一言(百度)

视觉大模型(CV):常用于图像处理和分析,如图像分类、目标检测、图像分割、姿态估计、人脸识别等;
常见模型: VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)。

多模态大模型: 这类模型结合了NLP和CV的能力,是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。
常见模型: DingoDB多模向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。

大模型的训练流程:

  1. 数据准备
这部分包括:  
①数据收集: 公开数据(新闻,媒体,论文,网页)和内部数据,
数据通常要求合规(版权,法律)② 数据清洗和过滤: 去重,过滤(低质量的,违法暴力的,敏感的),格式化(统一格式)③预处理: 将清洗后的文本转化为模型可识别的形式(分词,截断,填充,构建批次)
  1. 模型架构设计
    这一阶段确定架构和参数;
    ①架构选择
    选择适合的模型架构来搭建LLM模型, Transformer 架构占据主导地位,
其他模型有:①RNN 及其变体: 循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)②混合架构:Transformer + RNN  结合 Transformer 的注意力机制和 RNN 的序列建模能力。③稀疏注意力机制: 优化 Transformer 的注意力计算,降低时间和空间复杂度。④基于图的架构: 将文本表示为图结构,节点表示 token 或短语,边表示语义关系。⑤基于内存的架构: 引入外部记忆模块存储知识,减少对模型参数的依赖。⑥量子计算启发的架构: 借鉴量子计算原理设计新型神经网络。⑦神经概率逻辑模型: 将深度学习与符号逻辑推理相结合。⑧其他(T5,Switch Transformers)

Transformer 有三个变体: Encoder-Only , Decoder-only ,Encoder-Decoder

Encoder-Only架构
仅由编码器构成 也被称为单向架构。
这种架构的优点是能够更好地理解输入文本的语义和上下文信息,常用于如文本分类、情感分析等。 缺点是它无法直接生成文本输出,因此在需要生成文本的任务中不太适用。
通常用于: 文本分类、命名实体识别、情感分析等
模型代表: BERT、RoBERT 和 ALBERT 等。

Decoder-only 架构
仅包含解码器,也被称为生成式架构。
Decoder-Only 架构还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。
通常用于: 文本生成类任务,如对话系统、故事创作、摘要生成等
模型代表: GPT系列、LLaMA、OPT、BLOOM等

Encoder-Decoder 架构
包含编码器和解码器部分
这种架构的优点是能够更好地处理输入序列和输出序列之间的关系,从而提高机器翻译和对话生成等任务的准确性。缺点是模型复杂度较高,训练时间和计算资源消耗较大。

通常用于: 转换类任务,如机器翻译、语音识别、问答系统等。
模型代表: 例如Google的T5模型、华为的盘古NLP大模型等

②参数设计
模型的性能与参数规模强相关

模型规模:
总参数量(如 7B、13B、70B、175B 等,参数量越大,
理论上可学习的知识越丰富,但训练成本越高);结构参数:
transformer 层数(L):表示 Transformer 模型的堆叠层数(通常几十或上百层如 GPT-3 有 96 层);
层数决定了模型对输入信息的提炼深度:隐藏层维度(d_model):每层的特征维度(如 GPT-3 为 12288); 
维度越高意味着每个token的信息承载越多,注意力头数(num_heads):影响模型对文本中 “不同关系” 的捕捉能力(如 GPT-3 有 96 个头);上下文窗口:模型可处理的最大文本长度(如 GPT-3 为 2048 token,GPT-4 为 128k tokens),
窗口越大,模型对长文本的理解能力越强。
ps: 
Token(令牌) 是最基本的文本处理单元,相当于模型“理解”文本的“最小单位”。
在数据预处理阶段,将文本使用分词器 Tokenizer进行分词处理,即得到token;
  1. 预训练
    预训练本质上是一种大规模的自监督学习过程。与传统神经网络需要人工标注数据不同,预训练巧妙地利用文本数据本身的内在结构作为监督信号。具体而言,它是通过预测文本中的下一个词来学习语言规律。也就是说,预训练把复杂的语言学习问题转化成了一个统计问题:在已知前面所有词的情况下,去推断下一个词最有可能是什么。此阶段耗时最长、资源消耗最大(需数千 GPU/TPU 运行数周甚至数月)。
    它的意义在于
    ①绕过了数据标注的瓶颈。 预训练让模型从文本的自然结构中自主学习,无需外部监督。
    ②预训练使模型不仅获得了通用的语言表示能力,还获得了常识知识、逻辑推理能力。(还有"涌现能力"现象——当模型规模达到临界点时,会自然展现出训练目标之外的智能行为,从简单的文本预测中涌现出数学推理、代码生成等高级能力。)

①训练目标

1. 学习通用语言表示:掌握词汇、语法、句法、语义等基础语言规则。
2. 构建世界知识:从文本中吸收事实、概念、逻辑关系等知识。
3. 建立上下文理解能力:预测下一个词时需要依赖前文语境。

②核心预训练方法
主要分为两类,区别在于训练目标和模型架构:

1. 自回归语言建模(Autoregressive LM)
原理:根据上文预测下一个词(从左到右)。
代表模型:GPT 系列、LLaMA、Bloom。
特点:
天然适合生成任务。
训练时只能看到上文信息(单向注意力)。2. 掩码语言建模(Masked LM)
原理:随机遮盖输入文本中的部分词,让模型预测被遮盖的词。
代表模型:BERT、RoBERTa。
特点:
能同时利用左右上下文(双向注意力)。
更适合理解类任务(如文本分类、NER)

③训练策略

分布式训练:因模型参数量巨大(如 175B 参数需数十 TB 显存),需通过分布式技术拆分任务:
数据并行:将数据拆分到多个设备,各自计算梯度后汇总;
模型并行:将模型层拆分到不同设备(如底层在 GPU1,上层在 GPU2);
张量并行:将单个层的参数拆分到多个设备(如注意力头分布到不同 GPU);优化器与调度:常用 AdamW 优化器(带权重衰减的 Adam),
学习率采用 “线性预热 + 余弦衰减” 策略(避免初始学习率过大破坏模型);混合精度训练:用 FP16(半精度)或 BF16(脑浮点)计算,
减少显存占用并加速训练(同时保留关键参数用 FP32 存储,避免精度损失)。批次大小(Batch Size):从数百万到数亿 token(需分布式训练)

④训练监控
需实时监控关键指标,确保训练稳定:

损失(Loss):训练集和验证集的损失应持续下降,若验证集损失上升,可能出现过拟合;困惑度(Perplexity, PPL):衡量模型预测的 “不确定性”,PPL = exp (Loss),
值越低表示模型对文本的预测越准确(如 GPT-3 在预训练后 PPL 约为 20);资源指标:GPU 利用率、显存占用、网络通信效率(分布式训练中关键)。

训练过程中会定期保存checkpoint(模型参数 + 优化器状态),便于中断后恢复或后续微调。
上面是大概流程,但是具体怎么操作么找到,找到也没啥用,动不动就几百上千万美元,玩不起,也不会自己去训练一个模型;

  1. 微调(适配具体场景)
    预训练与微调(Fine-tuning)的关系
预训练:在大规模数据上学习通用语言知识。(使用海量无标注文本(TB级))
微调:在预训练基础上,使用特定任务的标注数据进一步优化模型。(使用少量任务标注数据(KB-MB级))
预训练是“培养通才”,微调是“打造专才”

①微调(Fine-tuning)核心目标

1.任务适配:使通用模型掌握特定任务能力(如翻译、摘要、客服)。
2.领域专业化:注入专业知识(如医疗、法律、金融)。
3.对齐人类偏好:优化输出安全性、无害性和有用性(通过RLHF)。
4.弥补预训练不足:纠正知识盲区或更新信息(如2023年后事件)。

②微调方法分类
按更新参数范围分为全量微调FFT(Full Fine Tuning),高效参数微调PEFT(Parameter-Efficient Fine Tuning)
这种分类方法的核心问题是:微调时需要更新模型的多少参数?
全参数微调(Full Fine-tuning)

原理
更新预训练模型的所有参数。适用场景
数据量充足(>10万样本)。
任务与预训练数据分布差异大(如专业领域)。缺点
显存占用高(需存储优化器状态和梯度)。
易灾难性遗忘(Catastrophic Forgetting

参数高效微调(Parameter-Efficient Fine-tuning, PEFT)
核心思想:冻结大部分预训练参数,只训练少量新增参数。
优势:显存占用低、训练速度快、避免遗忘。

主流技术: 
LoRA	向Transformer层注入低秩矩阵(ΔW = A·B),仅训练A、B。	显存节省70%,支持多任务切换(替换矩阵)Adapter	在FFN层后插入小型全连接层,仅训练该模块。	增加推理延迟(约4%),适合串行部署Prompt Tuning	学习软提示(Soft Prompt)向量,拼接输入端。	几乎不增加计算量,但对超参数敏感QLoRA	LoRA + 4-bit量化(用NF4存储预训练权重),GPU显存需求降低至1/3。	可在24GB消费级显卡微调65B模型(如Llama 2

按“微调目标与方法”划分
这种分类方法的核心问题是:微调的目标是什么(教模型做什么)?用什么数据和方法实现?(即训练范式)
监督微调(Supervised Fine-Tuning, SFT)

用人工标注的“输入-输出”(监督数据)训练模型,
通过最小化预测输出与目标输出的损失(如交叉熵),
让模型学习“在特定输入下生成正确输出”。指令微调(Instruction Tuning):使用多样化的指令 - 响应数据训练模型,使其理解并遵循人类指令,它属于SFT的一种,但数据从“输入-输出”升级为“自然语言指令-响应”,目标是让模型理解并执行任意自然语言指令,指令微调侧重 “指令”,SFT 侧重 “响应”

基于人类反馈的强化学习(RLHF)

通过人类对模型输出的偏好反馈(如排序、评分)训练“奖励模型”,再用强化学习(如PPO算法)优化模型,让输出更符合人类价值观(如“更安全”“更有用”“更诚实”)。用于对齐阶段,属于微调的一种, 目标是让模型安全、有用、符合人类偏好。
方法是
奖励模型(Reward Model, RM)(通常基于 SFT 模型结构)输入 “问题 + 输出”,输出一个分数(分数越高越符合人类偏好)用 RM 的分数作为 “奖励”,通过强化学习优化模型,让其生成更符合人类偏好的内容。

多任务微调:
数据: 混合任务标注数据;
目标: 提升跨任务泛化能力

领域微调:
数据: 特定领域文本(如医疗、法律)无严格格式(相当于用隐私数据在训练一下)
目标: 适应专业领域
通常在预训练后、任务微调前(为领域任务打基础)

  1. 对齐
    目标是让AI系统的行为与人类需求、偏好和价值观保持一致
    翻译成人话就是:“减少有害信息输出,使输出更加友好(会说话)”; 有害信息包括不限于,虚假,无效,违法,犯罪,反动,色情,暴力…等信息,
    除了RLHF(强化学习从人类反馈)还有其他对齐方法
RLOO(RL from AI Feedback):用 AI 替代人类标注偏好数据(降低成本);
DPO(Direct Preference Optimization):直接用人类偏好数据微调模型,无需训练奖励模型(简化流程);
安全微调(Safety Fine-tuning):用 “有害指令 + 安全响应” 数据微调,让模型拒绝生成有害内容(如 “如何制作炸弹”→“抱歉,我不能提供此类信息”)。
  1. 评估 验证 “模型性能”
    评估需覆盖能力、安全、效率等多维度,贯穿训练全流程(预训练、SFT、对齐后均需评估)。
基础能力:语言理解(如分词、语义相似性)、生成质量(流畅度、连贯性)、推理能力(逻辑推理、数学计算)、知识覆盖(事实准确性);
任务性能:在标准基准测试上的表现(如 MMLU 测试知识问答,GLUE 测试语言理解,HumanEval 测试代码生成);
安全性:通过 “红队测试”(用有害指令诱导模型)评估是否生成有害内容;
对齐度:人工评估模型输出是否符合人类偏好(如简洁性、相关性);
效率:推理速度(tokens / 秒)、显存占用、训练 / 推理成本。
  1. 部署
    部署的目标是让模型在实际场景中高效可用(如 API 服务、App 集成)。
    常见操作有
    模型压缩
量化:将参数从 FP32 转为 INT8/INT4(如 GPTQ、AWQ 技术),显存占用可降低 75% 以上,几乎不损失性能;
剪枝:移除冗余参数(如不重要的注意力头或神经元);
知识蒸馏:用大模型(教师)教小模型(学生),保留核心能力。

推理优化

推理引擎:用优化的推理框架(如 TensorRT-LLM、vLLM)加速生成速度(支持批量推理、连续批处理);
上下文缓存:缓存输入文本的计算结果(如注意力矩阵),避免重复计算。

部署与监控

部署形式:以 API 服务(如 OpenAI 的 ChatCompletion)、本地部署(如企业私有云)或边缘设备(如手机)形式落地;
持续监控:跟踪模型输出的安全性(如用过滤器拦截有害内容)、性能变化(如是否出现 “模型漂移”),并基于用户反馈迭代优化。
http://www.xdnf.cn/news/1143703.html

相关文章:

  • 在 Jenkins 中使用 SSH 部署密钥
  • 游戏盾能否保护业务免受DDoS攻击吗?
  • C语言基础:数组练习题
  • 服务器内存满了怎么清理缓存?
  • 【C++】——类和对象(中)——默认成员函数
  • 前端基础——B/S工作原理、服务器与前端三大件
  • 【Docker】在Linux环境下使用Dockerfile打包镜像(图文示例)
  • 完整的 Meteor NPM 集成
  • 6 种无线传输照片从安卓到 Mac 的方法
  • UDP 协议下一发一收通信程序的实现与解析
  • 防爆手机是什么?能用普通手机改装吗?
  • 免费PDF文件格式转换工具
  • FastAdmin框架超级管理员密码重置与常规admin安全机制解析-卓伊凡|大东家
  • python学智能算法(二十三)|SVM-几何距离
  • react控制react Popover组件显示隐藏
  • 【怜渠客】简单实现手机云控Windows电脑锁屏
  • 力扣面试150(33/150)
  • pytest + requests 接口自动化测试框架
  • UE 一些基础的python
  • AE MDX L6 L12 L18 电源手侧操作使用说明
  • 在git中同时配置gitcode和github访问权限
  • 40.限流规则
  • 【世纪龙科技】汽车故障诊断与排除仿真教学软件让课堂更高效安全
  • openinstall九周年:聚焦安全防御,护航业务持续增长
  • 注册表单案例
  • 低空感知技术
  • 服务端高并发方案设计
  • python学智能算法(二十四)|SVM-最优化几何距离的理解
  • git--gitlab
  • 【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - jieba库分词简介及使用