当前位置: 首页 > ai >正文

【大模型】LLM概念相关问题(上)

1.主流的大语言模型

截至2025年,主流的大型语言模型(LLM)体系涵盖了多个国家和机构的成果,具有多样的架构设计、参数规模和应用场景。以下是一些具有代表性的开源和闭源 LLM 体系:

🇺🇸 OpenAI — GPT 系列

  • GPT-4:OpenAI 开发的先进 LLM,支持多模态输入(文本、图像),具备强大的自然语言处理能力,适用于教育、研究和商业等多种领域。
  • GPT-NeoX-20B:由 EleutherAI 开发的开源自回归语言模型,拥有 200 亿参数,适用于文本生成、情感分析、问答和语言翻译等任务。

🇺🇸 Anthropic — Claude 系列

  • Claude 3.7 Sonnet:Anthropic 开发的 LLM,强调安全性和符合人类价值观,适合需要高度责任感的商业和企业应用场景。

🇺🇸 Meta — LLaMA 系列

  • LLaMA 2:Meta 发布的开源 LLM,提供 70 亿、130 亿和 700 亿参数版本,支持商业用途。
  • LLaMA 4:采用混合专家(MoE)架构,具备多模态(文本和图像输入)和多语言能力,包括 Scout(170 亿活跃参数)和 Maverick(170 亿活跃参数)等版本。

🇨🇳 深度求索(DeepSeek)系列

  • DeepSeek-V3:采用混合专家架构,性能媲美 GPT-4o,训练成本约为 557.6 万美元。
  • DeepSeek-R1:专注于推理能力,特别适用于数学和逻辑任务,性能对标 OpenAI o1。

🇺🇸 Google DeepMind — Gemini 系列

  • Gemini:Google DeepMind 开发的多模态 LLM,包含 Gemini Ultra、Gemini Pro 和 Gemini Nano,支持文本、图像等多种数据类型的输入。

2.大语言模型的几种类别

1. 按训练目标分类

1.1 基础模型(Base Models)
  • 定义:仅经过大规模自回归预训练,不含任何指令或对话优化。
  • 特点:擅长下一词预测,但对“听懂”人类指令的能力较弱,直接对话或复杂任务时需要精心设计 Prompt。
  • 代表:原始 GPT、LLaMA Base。
1.2 指令/对话模型(Instruction-Tuned / Chat Models)
  • 定义:在基础模型上进一步以人类指令-回复对(SFT)与强化学习(RLHF)进行微调,使模型更擅长按指令执行任务、进行多轮对话。
  • 特点:能主动寻求澄清、更好地控制输出风格,回答更符合使用者预期。
  • 代表:DeepSeek-V3(Chat 类)、OpenAI InstructGPT、LLaMA 2-Chat。
1.3 推理模型(Reasoning Models)
  • 定义:在生成答案前“分步思考”(Chain-of-Thought)或自动推理优化,专注于复杂逻辑、数学和编程等结构化问题。
  • 特点:推理准确率大幅提升,但通常需要更长的推理时间和更多计算资源。
  • 代表:DeepSeek-R1(推理类)、OpenAI o1/o3 系列。

2. 按增强方式分类

2.1 检索增强生成(Retrieval-Augmented Generation,RAG)
  • 定义:模型在生成前通过向外部知识库(向量数据库)检索相关文档,把最新或私有化数据作为上下文,补足训练时的“信息盲区”。
  • 特点:显著减少“幻觉”事实错误,可实时引用企业内网/文档,适合知识密集型场景。
  • 典型应用:企业内部知识问答、法规咨询、文档摘要。
2.2 工具调用(Tool-Use)
  • 定义:LLM 通过 API 调用、执行代码或第三方工具(如计算器、搜索引擎)来完成特定任务。
  • 特点:将复杂或外部计算任务交给专用工具,实现更准确和可验证的结果。

3.大模型的涌现能力

大语言模型的“涌现能力”(emergent abilities)指的是一些在小规模模型上几乎不具备,但随着模型参数量、计算资源和训练数据规模达到某一阈值后突然出现的能力。其背后主要原因可以从以下几个角度来理解:

1. 参数与计算规模的“阈值效应”

  • 非线性相互作用:当模型规模(参数数目)和训练计算(FLOPs)增加时,模型内部各层、各头之间的表示与权重并非简单线性叠加,而是产生了新的、高阶的特征交互,从而催化了能力的突增。
  • 相位跃迁(Phase Transition):在缩放曲线(横轴为模型规模,纵轴为性能)上,这些能力表现为“折点”,即性能从近似随机跃升到可用水平,不能通过对小模型性能的线性外推预测到这一跃迁。

2. 丰富多样的训练数据与长尾知识

  • 数据量与多样性:大模型通常使用数万亿 token 级别的多领域语料;在海量且多样化的上下文中,模型学习到的语言规则和世界知识更全面,触发了对“少量示例学习”(in-context learning)、复杂推理等高级能力的支持。
  • 长尾现象:许多特定任务或知识点本身在数据中出现频率极低,只有当训练集足够巨大、覆盖到这些长尾用例时,模型才能在对应场景下表现出色。

3. 训练动态与优化策略

  • 混合目标与正则化:现代大模型在预训练中往往使用多种去噪、掩码、自回归等混合目标(如 UL2R),以及更长的训练步骤,使得模型在不同任务模式之间能平滑过渡,从而在某些任务上出现“超预期”能力。
  • 激活稀疏与专家路由(MoE):部分模型(如混合专家架构)在推理时只激活子集参数,既保留了大规模模型的表示能力,又降低了推理成本,也带来了新的能力组合方式。

4. 语义与推理结构的隐式学习

  • 隐式结构归纳:大模型能在无监督预训练中自动归纳出语言的层次化、图结构或逻辑关系,例如数学推理、程序合成等,这是小模型难以做到的。隐式学习到的“思考链”(chain-of-thought)在规模达到一定程度时开始自然显现。
  • 启发式与元学习:大模型会学习到一套“元策略”(meta-strategy),在面对新任务时能够迅速从上下文提示中抽取要点,借助类似人类启发式的方式高效完成任务。

4.为什么大模型基本是Decoder-only结构

  1. Encoder的低秩问题:Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。
  2. 更好的Zero-Shot性能、更适合于大语料自监督学习:decoder-only 模型在没有任何 tuning 数据的情况下、zero-shot 表现最好,而 encoder-decoder 则需要在一定量的标注数据上做 multitask finetuning 才能激发最佳性能。
  3. 效率问题:decoder-only支持一直复用KV-Cache,对多轮对话更友好,因为每个Token的表示之和它之前的输入有关,而encoder-decoder和PrefixLM就难以做到。

5.LLMs输入句子长度理论上可以无限长吗?

理论上来说,LLMs(大型语言模型)可以处理任意长度的输入句子,但实际上存在一些限制和挑战。下面是一些相关的考虑因素:

  1. 计算资源:生成长句子需要更多的计算资源,包括内存和计算时间。由于LLMs通常是基于神经网络的模型,计算长句子可能会导致内存不足或计算时间过长的问题。
  2. 模型训练和推理:训练和推理长句子可能会面临一些挑战。在训练阶段,处理长句子可能会导致梯度消失或梯度爆炸的问题,影响模型的收敛性和训练效果。在推理阶段,生成长句子可能会增加模型的错误率和生成时间。
  3. 上下文建模:LLMs是基于上下文建模的模型,长句子的上下文可能会更加复杂和深层。模型需要能够捕捉长句子中的语义和语法结构,以生成准确和连贯的文本。

6.分词领域,中文分词的难点?

  • 分词标准不统一
    中文没有天然的空格分隔,不同场景对词语划分的标准存在差异,如“人名”是否分开、“花草”是否合并为一词等问题。因此中文分词在某种意义上是一个“无统一标准”的任务。
  • 切分歧义复杂多样
    切分歧义是指同一个字串可以有多种合法切分方式,分为组合型歧义(如“将来”/“将/来”)、交集型歧义(如“商务处女干事”)、以及真歧义(如“下雨天留客天天留人不留”)。这些歧义有的可以通过上下文判断,有的甚至需要更广泛的语境理解。
  • 未登录词识别困难
    新词、专有名词、网络热词等常常未被词典收录,且它们形式多样、缺乏明显边界,导致传统词典匹配方法失效。jieba等工具引入了统计学习方法(如HMM和Viterbi算法)来识别这些词,但仍是中文分词中最具挑战性的部分之一。

7.当下主流的中文分词算法

1. 基于词典的匹配算法(规则法)

核心思路:依赖词典进行字符串匹配,常见策略为正向最大匹配(MM)、逆向最大匹配(RMM)或双向匹配(BMM)。

  • 优点:实现简单,速度快
  • 缺点:无法识别未登录词,切分歧义处理能力弱
  • 代表工具:早期的 ICTCLAS、哈工大分词系统的一部分

2. 基于统计的分词算法

核心思路:利用大规模语料中词语的共现频率、互信息(MI)、左右熵等指标判断词边界。

  • 典型方法
    • 基于N-gram模型(统计语言模型)
    • 基于互信息 + 左右熵的无监督新词发现
  • 优点:能一定程度识别未登录词
  • 缺点:依赖大规模语料,难处理歧义
  • 代表工具:THULAC、结巴分词(部分新词发现功能)

3. 基于序列标注的分词算法

核心思路:将分词任务看作序列标注问题,常用 BIO 或 BEMS(Begin, End, Middle, Single)标签。

  • 典型模型
    • 隐马尔科夫模型(HMM):如jieba内部使用的HMM模型
    • 条件随机场(CRF):如CRF++、LTP(语言技术平台)
  • 优点:准确率高,能有效处理歧义
  • 缺点:训练成本高,需要人工标注语料
  • 代表工具:jieba(HMM + 词典),HanLP(支持CRF)

4. 基于深度学习的分词算法

核心思路:通过深度神经网络学习字符间的边界关系,自动提取特征。

  • 典型架构
    • BiLSTM-CRF(双向LSTM+条件随机场)
    • Transformer/BERT + CRF:结合预训练语言模型提升效果
  • 优点:泛化能力强,性能最优,支持端到端训练
  • 缺点:训练数据需求大,计算资源要求高
  • 代表系统
    • BERT-based 分词模型(如Tencent ChineseBERT)
    • 百度的ERNIE分词模型
    • HuggingFace上的中文分词模型

8.激活函数的作用?现在主流用哪个激活函数?

激活函数(Activation Function)主要作用有以下几点:

  1. 引入非线性能力
    如果没有激活函数,神经网络每一层的输出就是线性变换,叠加再多层本质上还是线性函数,无法拟合复杂的数据。激活函数让网络可以学习复杂的非线性模式。
  2. 控制信息流动(选择性激活)
    比如 ReLU 把负数置零,相当于“关掉”部分神经元,增强稀疏性,提高训练效率。
  3. 稳定梯度传播
    选择合适的激活函数可以缓解梯度消失或爆炸的问题,使深层网络更容易训练。

现在主流的激活函数

激活函数数学形式特点常用场景
ReLU f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)简单高效,不易梯度消失;缺点是“神经元死亡”问题默认首选
Leaky ReLU f ( x ) = x ( x > 0 ) , a x a x ( x ≤ 0 , a ≈ 0.01 ) f(x) = x (x > 0), axax (x ≤ 0, a≈0.01) f(x)=x(x>0),axax(x0,a0.01)缓解ReLU死亡问题ReLU改进版
ELU / SELU具有负轴上的平滑性和指数特性更稳定,适合深网络深层网络、归一化搭配
Sigmoid f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+ex1饱和区梯度小,易梯度消失旧模型、二分类输出层
Tanh f ( x ) = tanh ⁡ ( x ) f(x) = \tanh(x) f(x)=tanh(x)比 sigmoid 输出均值更接近0RNN中较常用
Softmax f ( x i ) = e x i ∑ j e x j f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} f(xi)=jexjexi将向量转为概率分布多分类输出层
GELU f ( x ) = x ⋅ Φ ( x ) f(x) = x \cdot \Phi(x) f(x)=xΦ(x)BERT等Transformer模型常用,效果优于ReLUNLP领域主流

9.jieba分词当前还有使用场景吗?

1. 如果你使用 BERT 或其他 Transformer 模型:

通常不需要再用 jieba 分词。

  • BERT 使用自己的 Tokenizer(如 WordPiece 或 SentencePiece)对中文进行“子词级别”的切分,比如将“花呗借钱”分成:
    ['花', '呗', '借', '钱']
  • Tokenizer 自动处理未登录词和 OOV 问题,而且与预训练时使用的一致,避免了“分词标准不一致”带来的精度问题。
  • 在文本分类、命名实体识别、文本生成等主流任务中,直接使用 BERT 的分词器效果更好且更标准化

2. 但在以下场景下,jieba 仍然有用:

  • 关键词提取、文本摘要、搜索引擎:需要词粒度的分词,jieba 快速高效,能提升 recall。
  • 预处理前的可视化或人工审查:jieba 分词便于观察词语边界,辅助人工判断。
  • 特征工程阶段(非深度学习模型):如 TF-IDF + XGBoost、SVM 等传统模型,jieba 分词仍是常见选择。

10.词性标注算法,当前主流有哪些?

方法精度特征工程训练难度代表模型/系统
Rule-based一般手工规则多简单中科院词性标注器
HMM中等较少jieba(可选)、早期ICTCLAS
CRF丰富THULAC、LTP、CRF++
BiLSTM-CRF较高自动学习中高HanLP、LTP3
BERT + CRF/MLP极高端到端百度LAC、Tencent ChineseBERT
http://www.xdnf.cn/news/5047.html

相关文章:

  • C++面向对象特性之多态篇
  • 如何解决按钮重复点击
  • 第十七章,反病毒---防病毒网管
  • MOS关断时波形下降沿振荡怎么解决
  • C语言实现:打印素数、最大公约数
  • gradle3.5的安装以及配置环境变量
  • 进行性核上性麻痹饮食指南:科学膳食守护神经健康
  • OpenMagnetic的介绍与使用
  • Redis 存储原理与数据模型(三)
  • 基于RAG+MCP开发【企文小智】企业智能体
  • (强连通分量)洛谷 P2812 校园网络(加强版)题解
  • 【强化学习】强化学习算法 - 马尔可夫决策过程
  • ROS动态参数 - dynamic reconfigure 动态配置参数
  • JDK21之虚拟线程
  • 在Mathematica中加速绘制图形(LibraryLink)
  • Vue3项目中如何实现网页加载进度条。
  • 专题练习1
  • 图像移动图像归类代码
  • 仁合医疗进博会:创新成果闪耀亮相
  • [逆向工程]什么说ASLR技术(二十三)
  • 操作系统导论——第26章 并发:介绍
  • 剖析 Java 23 特性:深入探究最新功能
  • Android framework功能配置开发
  • SQL JOIN 关联条件和 where 条件的异同
  • AnyTXTSearcher电脑本地文件搜索工具
  • 深入理解 Vue 全局导航守卫:分类、作用与参数详解
  • AVL树:保持平衡的高效二叉搜索树
  • apipost快捷使用实例
  • 43.防雷击浪涌设计
  • 计算机系统结构-第九章-互联网络 第十章