当前位置：首页 > ai >正文

【大模型】LLM概念相关问题（上）

ai 2025/9/3 23:13:38

1.主流的大语言模型

截至2025年，主流的大型语言模型（LLM）体系涵盖了多个国家和机构的成果，具有多样的架构设计、参数规模和应用场景。以下是一些具有代表性的开源和闭源 LLM 体系：

🇺🇸 OpenAI — GPT 系列

GPT-4：OpenAI 开发的先进 LLM，支持多模态输入（文本、图像），具备强大的自然语言处理能力，适用于教育、研究和商业等多种领域。
GPT-NeoX-20B：由 EleutherAI 开发的开源自回归语言模型，拥有 200 亿参数，适用于文本生成、情感分析、问答和语言翻译等任务。

🇺🇸 Anthropic — Claude 系列

Claude 3.7 Sonnet：Anthropic 开发的 LLM，强调安全性和符合人类价值观，适合需要高度责任感的商业和企业应用场景。

🇺🇸 Meta — LLaMA 系列

LLaMA 2：Meta 发布的开源 LLM，提供 70 亿、130 亿和 700 亿参数版本，支持商业用途。
LLaMA 4：采用混合专家（MoE）架构，具备多模态（文本和图像输入）和多语言能力，包括 Scout（170 亿活跃参数）和 Maverick（170 亿活跃参数）等版本。

🇨🇳 深度求索（DeepSeek）系列

DeepSeek-V3：采用混合专家架构，性能媲美 GPT-4o，训练成本约为 557.6 万美元。
DeepSeek-R1：专注于推理能力，特别适用于数学和逻辑任务，性能对标 OpenAI o1。

🇺🇸 Google DeepMind — Gemini 系列

Gemini：Google DeepMind 开发的多模态 LLM，包含 Gemini Ultra、Gemini Pro 和 Gemini Nano，支持文本、图像等多种数据类型的输入。

2.大语言模型的几种类别

1. 按训练目标分类

1.1 基础模型（Base Models）

定义：仅经过大规模自回归预训练，不含任何指令或对话优化。
特点：擅长下一词预测，但对“听懂”人类指令的能力较弱，直接对话或复杂任务时需要精心设计 Prompt。
代表：原始 GPT、LLaMA Base。

1.2 指令/对话模型（Instruction-Tuned / Chat Models）

定义：在基础模型上进一步以人类指令-回复对（SFT）与强化学习（RLHF）进行微调，使模型更擅长按指令执行任务、进行多轮对话。
特点：能主动寻求澄清、更好地控制输出风格，回答更符合使用者预期。
代表：DeepSeek-V3（Chat 类）、OpenAI InstructGPT、LLaMA 2-Chat。

1.3 推理模型（Reasoning Models）

定义：在生成答案前“分步思考”（Chain-of-Thought）或自动推理优化，专注于复杂逻辑、数学和编程等结构化问题。
特点：推理准确率大幅提升，但通常需要更长的推理时间和更多计算资源。
代表：DeepSeek-R1（推理类）、OpenAI o1/o3 系列。

2. 按增强方式分类

2.1 检索增强生成（Retrieval-Augmented Generation，RAG）

定义：模型在生成前通过向外部知识库（向量数据库）检索相关文档，把最新或私有化数据作为上下文，补足训练时的“信息盲区”。
特点：显著减少“幻觉”事实错误，可实时引用企业内网/文档，适合知识密集型场景。
典型应用：企业内部知识问答、法规咨询、文档摘要。

2.2 工具调用（Tool-Use）

定义：LLM 通过 API 调用、执行代码或第三方工具（如计算器、搜索引擎）来完成特定任务。
特点：将复杂或外部计算任务交给专用工具，实现更准确和可验证的结果。

3.大模型的涌现能力

大语言模型的“涌现能力”（emergent abilities）指的是一些在小规模模型上几乎不具备，但随着模型参数量、计算资源和训练数据规模达到某一阈值后突然出现的能力。其背后主要原因可以从以下几个角度来理解：

1. 参数与计算规模的“阈值效应”

非线性相互作用：当模型规模（参数数目）和训练计算（FLOPs）增加时，模型内部各层、各头之间的表示与权重并非简单线性叠加，而是产生了新的、高阶的特征交互，从而催化了能力的突增。
相位跃迁（Phase Transition）：在缩放曲线（横轴为模型规模，纵轴为性能）上，这些能力表现为“折点”，即性能从近似随机跃升到可用水平，不能通过对小模型性能的线性外推预测到这一跃迁。

2. 丰富多样的训练数据与长尾知识

数据量与多样性：大模型通常使用数万亿 token 级别的多领域语料；在海量且多样化的上下文中，模型学习到的语言规则和世界知识更全面，触发了对“少量示例学习”（in-context learning）、复杂推理等高级能力的支持。
长尾现象：许多特定任务或知识点本身在数据中出现频率极低，只有当训练集足够巨大、覆盖到这些长尾用例时，模型才能在对应场景下表现出色。

3. 训练动态与优化策略

混合目标与正则化：现代大模型在预训练中往往使用多种去噪、掩码、自回归等混合目标（如 UL2R），以及更长的训练步骤，使得模型在不同任务模式之间能平滑过渡，从而在某些任务上出现“超预期”能力。
激活稀疏与专家路由（MoE）：部分模型（如混合专家架构）在推理时只激活子集参数，既保留了大规模模型的表示能力，又降低了推理成本，也带来了新的能力组合方式。

4. 语义与推理结构的隐式学习

隐式结构归纳：大模型能在无监督预训练中自动归纳出语言的层次化、图结构或逻辑关系，例如数学推理、程序合成等，这是小模型难以做到的。隐式学习到的“思考链”（chain-of-thought）在规模达到一定程度时开始自然显现。
启发式与元学习：大模型会学习到一套“元策略”（meta-strategy），在面对新任务时能够迅速从上下文提示中抽取要点，借助类似人类启发式的方式高效完成任务。

4.为什么大模型基本是Decoder-only结构

Encoder的低秩问题：Encoder的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。
更好的Zero-Shot性能、更适合于大语料自监督学习：decoder-only 模型在没有任何 tuning 数据的情况下、zero-shot 表现最好，而 encoder-decoder 则需要在一定量的标注数据上做 multitask finetuning 才能激发最佳性能。
效率问题：decoder-only支持一直复用KV-Cache，对多轮对话更友好，因为每个Token的表示之和它之前的输入有关，而encoder-decoder和PrefixLM就难以做到。

5.LLMs输入句子长度理论上可以无限长吗？

理论上来说，LLMs（大型语言模型）可以处理任意长度的输入句子，但实际上存在一些限制和挑战。下面是一些相关的考虑因素：

计算资源：生成长句子需要更多的计算资源，包括内存和计算时间。由于LLMs通常是基于神经网络的模型，计算长句子可能会导致内存不足或计算时间过长的问题。
模型训练和推理：训练和推理长句子可能会面临一些挑战。在训练阶段，处理长句子可能会导致梯度消失或梯度爆炸的问题，影响模型的收敛性和训练效果。在推理阶段，生成长句子可能会增加模型的错误率和生成时间。
上下文建模：LLMs是基于上下文建模的模型，长句子的上下文可能会更加复杂和深层。模型需要能够捕捉长句子中的语义和语法结构，以生成准确和连贯的文本。

6.分词领域，中文分词的难点？

分词标准不统一
中文没有天然的空格分隔，不同场景对词语划分的标准存在差异，如“人名”是否分开、“花草”是否合并为一词等问题。因此中文分词在某种意义上是一个“无统一标准”的任务。
切分歧义复杂多样
切分歧义是指同一个字串可以有多种合法切分方式，分为组合型歧义（如“将来”/“将/来”）、交集型歧义（如“商务处女干事”）、以及真歧义（如“下雨天留客天天留人不留”）。这些歧义有的可以通过上下文判断，有的甚至需要更广泛的语境理解。
未登录词识别困难
新词、专有名词、网络热词等常常未被词典收录，且它们形式多样、缺乏明显边界，导致传统词典匹配方法失效。jieba等工具引入了统计学习方法（如HMM和Viterbi算法）来识别这些词，但仍是中文分词中最具挑战性的部分之一。

7.当下主流的中文分词算法

1. 基于词典的匹配算法（规则法）

核心思路：依赖词典进行字符串匹配，常见策略为正向最大匹配（MM）、逆向最大匹配（RMM）或双向匹配（BMM）。

优点：实现简单，速度快
缺点：无法识别未登录词，切分歧义处理能力弱
代表工具：早期的 ICTCLAS、哈工大分词系统的一部分

2. 基于统计的分词算法

核心思路：利用大规模语料中词语的共现频率、互信息（MI）、左右熵等指标判断词边界。

典型方法：
- 基于N-gram模型（统计语言模型）
- 基于互信息 + 左右熵的无监督新词发现
优点：能一定程度识别未登录词
缺点：依赖大规模语料，难处理歧义
代表工具：THULAC、结巴分词（部分新词发现功能）

3. 基于序列标注的分词算法

核心思路：将分词任务看作序列标注问题，常用 BIO 或 BEMS（Begin, End, Middle, Single）标签。

典型模型：
- 隐马尔科夫模型（HMM）：如jieba内部使用的HMM模型
- 条件随机场（CRF）：如CRF++、LTP（语言技术平台）
优点：准确率高，能有效处理歧义
缺点：训练成本高，需要人工标注语料
代表工具：jieba（HMM + 词典），HanLP（支持CRF）

4. 基于深度学习的分词算法

核心思路：通过深度神经网络学习字符间的边界关系，自动提取特征。

典型架构：
- BiLSTM-CRF（双向LSTM+条件随机场）
- Transformer/BERT + CRF：结合预训练语言模型提升效果
优点：泛化能力强，性能最优，支持端到端训练
缺点：训练数据需求大，计算资源要求高
代表系统：
- BERT-based 分词模型（如Tencent ChineseBERT）
- 百度的ERNIE分词模型
- HuggingFace上的中文分词模型

8.激活函数的作用？现在主流用哪个激活函数？

激活函数（Activation Function）主要作用有以下几点：

引入非线性能力
如果没有激活函数，神经网络每一层的输出就是线性变换，叠加再多层本质上还是线性函数，无法拟合复杂的数据。激活函数让网络可以学习复杂的非线性模式。
控制信息流动（选择性激活）
比如 ReLU 把负数置零，相当于“关掉”部分神经元，增强稀疏性，提高训练效率。
稳定梯度传播
选择合适的激活函数可以缓解梯度消失或爆炸的问题，使深层网络更容易训练。

现在主流的激活函数

激活函数	数学形式	特点	常用场景
ReLU	$\max(0, x)$	简单高效，不易梯度消失；缺点是“神经元死亡”问题	默认首选
Leaky ReLU	$f (x) = x (x > 0), a x a x (x \leq 0, a \approx 0.01)$	缓解ReLU死亡问题	ReLU改进版
ELU / SELU	具有负轴上的平滑性和指数特性	更稳定，适合深网络	深层网络、归一化搭配
Sigmoid	$\frac{1}{1 + e^{-x}}$	饱和区梯度小，易梯度消失	旧模型、二分类输出层
Tanh	$\tanh(x)$	比 sigmoid 输出均值更接近0	RNN中较常用
Softmax	$f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}$	将向量转为概率分布	多分类输出层
GELU	$\cdot \Phi(x)$	BERT等Transformer模型常用，效果优于ReLU	NLP领域主流

9.jieba分词当前还有使用场景吗？

1. 如果你使用 BERT 或其他 Transformer 模型：

通常不需要再用 jieba 分词。

BERT 使用自己的 Tokenizer（如 WordPiece 或 SentencePiece）对中文进行“子词级别”的切分，比如将“花呗借钱”分成：
['花', '呗', '借', '钱']
Tokenizer 自动处理未登录词和 OOV 问题，而且与预训练时使用的一致，避免了“分词标准不一致”带来的精度问题。
在文本分类、命名实体识别、文本生成等主流任务中，直接使用 BERT 的分词器效果更好且更标准化。

2. 但在以下场景下，jieba 仍然有用：

关键词提取、文本摘要、搜索引擎：需要词粒度的分词，jieba 快速高效，能提升 recall。
预处理前的可视化或人工审查：jieba 分词便于观察词语边界，辅助人工判断。
特征工程阶段（非深度学习模型）：如 TF-IDF + XGBoost、SVM 等传统模型，jieba 分词仍是常见选择。

10.词性标注算法，当前主流有哪些？

方法	精度	特征工程	训练难度	代表模型/系统
Rule-based	一般	手工规则多	简单	中科院词性标注器
HMM	中等	较少	低	jieba（可选）、早期ICTCLAS
CRF	高	丰富	中	THULAC、LTP、CRF++
BiLSTM-CRF	较高	自动学习	中高	HanLP、LTP3
BERT + CRF/MLP	极高	端到端	高	百度LAC、Tencent ChineseBERT