【大模型】LLM概念相关问题(上)
1.主流的大语言模型
截至2025年,主流的大型语言模型(LLM)体系涵盖了多个国家和机构的成果,具有多样的架构设计、参数规模和应用场景。以下是一些具有代表性的开源和闭源 LLM 体系:
🇺🇸 OpenAI — GPT 系列
- GPT-4:OpenAI 开发的先进 LLM,支持多模态输入(文本、图像),具备强大的自然语言处理能力,适用于教育、研究和商业等多种领域。
- GPT-NeoX-20B:由 EleutherAI 开发的开源自回归语言模型,拥有 200 亿参数,适用于文本生成、情感分析、问答和语言翻译等任务。
🇺🇸 Anthropic — Claude 系列
- Claude 3.7 Sonnet:Anthropic 开发的 LLM,强调安全性和符合人类价值观,适合需要高度责任感的商业和企业应用场景。
🇺🇸 Meta — LLaMA 系列
- LLaMA 2:Meta 发布的开源 LLM,提供 70 亿、130 亿和 700 亿参数版本,支持商业用途。
- LLaMA 4:采用混合专家(MoE)架构,具备多模态(文本和图像输入)和多语言能力,包括 Scout(170 亿活跃参数)和 Maverick(170 亿活跃参数)等版本。
🇨🇳 深度求索(DeepSeek)系列
- DeepSeek-V3:采用混合专家架构,性能媲美 GPT-4o,训练成本约为 557.6 万美元。
- DeepSeek-R1:专注于推理能力,特别适用于数学和逻辑任务,性能对标 OpenAI o1。
🇺🇸 Google DeepMind — Gemini 系列
- Gemini:Google DeepMind 开发的多模态 LLM,包含 Gemini Ultra、Gemini Pro 和 Gemini Nano,支持文本、图像等多种数据类型的输入。
2.大语言模型的几种类别
1. 按训练目标分类
1.1 基础模型(Base Models)
- 定义:仅经过大规模自回归预训练,不含任何指令或对话优化。
- 特点:擅长下一词预测,但对“听懂”人类指令的能力较弱,直接对话或复杂任务时需要精心设计 Prompt。
- 代表:原始 GPT、LLaMA Base。
1.2 指令/对话模型(Instruction-Tuned / Chat Models)
- 定义:在基础模型上进一步以人类指令-回复对(SFT)与强化学习(RLHF)进行微调,使模型更擅长按指令执行任务、进行多轮对话。
- 特点:能主动寻求澄清、更好地控制输出风格,回答更符合使用者预期。
- 代表:DeepSeek-V3(Chat 类)、OpenAI InstructGPT、LLaMA 2-Chat。
1.3 推理模型(Reasoning Models)
- 定义:在生成答案前“分步思考”(Chain-of-Thought)或自动推理优化,专注于复杂逻辑、数学和编程等结构化问题。
- 特点:推理准确率大幅提升,但通常需要更长的推理时间和更多计算资源。
- 代表:DeepSeek-R1(推理类)、OpenAI o1/o3 系列。
2. 按增强方式分类
2.1 检索增强生成(Retrieval-Augmented Generation,RAG)
- 定义:模型在生成前通过向外部知识库(向量数据库)检索相关文档,把最新或私有化数据作为上下文,补足训练时的“信息盲区”。
- 特点:显著减少“幻觉”事实错误,可实时引用企业内网/文档,适合知识密集型场景。
- 典型应用:企业内部知识问答、法规咨询、文档摘要。
2.2 工具调用(Tool-Use)
- 定义:LLM 通过 API 调用、执行代码或第三方工具(如计算器、搜索引擎)来完成特定任务。
- 特点:将复杂或外部计算任务交给专用工具,实现更准确和可验证的结果。
3.大模型的涌现能力
大语言模型的“涌现能力”(emergent abilities)指的是一些在小规模模型上几乎不具备,但随着模型参数量、计算资源和训练数据规模达到某一阈值后突然出现的能力。其背后主要原因可以从以下几个角度来理解:
1. 参数与计算规模的“阈值效应”
- 非线性相互作用:当模型规模(参数数目)和训练计算(FLOPs)增加时,模型内部各层、各头之间的表示与权重并非简单线性叠加,而是产生了新的、高阶的特征交互,从而催化了能力的突增。
- 相位跃迁(Phase Transition):在缩放曲线(横轴为模型规模,纵轴为性能)上,这些能力表现为“折点”,即性能从近似随机跃升到可用水平,不能通过对小模型性能的线性外推预测到这一跃迁。
2. 丰富多样的训练数据与长尾知识
- 数据量与多样性:大模型通常使用数万亿 token 级别的多领域语料;在海量且多样化的上下文中,模型学习到的语言规则和世界知识更全面,触发了对“少量示例学习”(in-context learning)、复杂推理等高级能力的支持。
- 长尾现象:许多特定任务或知识点本身在数据中出现频率极低,只有当训练集足够巨大、覆盖到这些长尾用例时,模型才能在对应场景下表现出色。
3. 训练动态与优化策略
- 混合目标与正则化:现代大模型在预训练中往往使用多种去噪、掩码、自回归等混合目标(如 UL2R),以及更长的训练步骤,使得模型在不同任务模式之间能平滑过渡,从而在某些任务上出现“超预期”能力。
- 激活稀疏与专家路由(MoE):部分模型(如混合专家架构)在推理时只激活子集参数,既保留了大规模模型的表示能力,又降低了推理成本,也带来了新的能力组合方式。
4. 语义与推理结构的隐式学习
- 隐式结构归纳:大模型能在无监督预训练中自动归纳出语言的层次化、图结构或逻辑关系,例如数学推理、程序合成等,这是小模型难以做到的。隐式学习到的“思考链”(chain-of-thought)在规模达到一定程度时开始自然显现。
- 启发式与元学习:大模型会学习到一套“元策略”(meta-strategy),在面对新任务时能够迅速从上下文提示中抽取要点,借助类似人类启发式的方式高效完成任务。
4.为什么大模型基本是Decoder-only结构
- Encoder的低秩问题:Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。
- 更好的Zero-Shot性能、更适合于大语料自监督学习:decoder-only 模型在没有任何 tuning 数据的情况下、zero-shot 表现最好,而 encoder-decoder 则需要在一定量的标注数据上做 multitask finetuning 才能激发最佳性能。
- 效率问题:decoder-only支持一直复用KV-Cache,对多轮对话更友好,因为每个Token的表示之和它之前的输入有关,而encoder-decoder和PrefixLM就难以做到。
5.LLMs输入句子长度理论上可以无限长吗?
理论上来说,LLMs(大型语言模型)可以处理任意长度的输入句子,但实际上存在一些限制和挑战。下面是一些相关的考虑因素:
- 计算资源:生成长句子需要更多的计算资源,包括内存和计算时间。由于LLMs通常是基于神经网络的模型,计算长句子可能会导致内存不足或计算时间过长的问题。
- 模型训练和推理:训练和推理长句子可能会面临一些挑战。在训练阶段,处理长句子可能会导致梯度消失或梯度爆炸的问题,影响模型的收敛性和训练效果。在推理阶段,生成长句子可能会增加模型的错误率和生成时间。
- 上下文建模:LLMs是基于上下文建模的模型,长句子的上下文可能会更加复杂和深层。模型需要能够捕捉长句子中的语义和语法结构,以生成准确和连贯的文本。
6.分词领域,中文分词的难点?
- 分词标准不统一
中文没有天然的空格分隔,不同场景对词语划分的标准存在差异,如“人名”是否分开、“花草”是否合并为一词等问题。因此中文分词在某种意义上是一个“无统一标准”的任务。 - 切分歧义复杂多样
切分歧义是指同一个字串可以有多种合法切分方式,分为组合型歧义(如“将来”/“将/来”)、交集型歧义(如“商务处女干事”)、以及真歧义(如“下雨天留客天天留人不留”)。这些歧义有的可以通过上下文判断,有的甚至需要更广泛的语境理解。 - 未登录词识别困难
新词、专有名词、网络热词等常常未被词典收录,且它们形式多样、缺乏明显边界,导致传统词典匹配方法失效。jieba等工具引入了统计学习方法(如HMM和Viterbi算法)来识别这些词,但仍是中文分词中最具挑战性的部分之一。
7.当下主流的中文分词算法
1. 基于词典的匹配算法(规则法)
核心思路:依赖词典进行字符串匹配,常见策略为正向最大匹配(MM)、逆向最大匹配(RMM)或双向匹配(BMM)。
- 优点:实现简单,速度快
- 缺点:无法识别未登录词,切分歧义处理能力弱
- 代表工具:早期的 ICTCLAS、哈工大分词系统的一部分
2. 基于统计的分词算法
核心思路:利用大规模语料中词语的共现频率、互信息(MI)、左右熵等指标判断词边界。
- 典型方法:
- 基于N-gram模型(统计语言模型)
- 基于互信息 + 左右熵的无监督新词发现
- 优点:能一定程度识别未登录词
- 缺点:依赖大规模语料,难处理歧义
- 代表工具:THULAC、结巴分词(部分新词发现功能)
3. 基于序列标注的分词算法
核心思路:将分词任务看作序列标注问题,常用 BIO 或 BEMS(Begin, End, Middle, Single)标签。
- 典型模型:
- 隐马尔科夫模型(HMM):如jieba内部使用的HMM模型
- 条件随机场(CRF):如CRF++、LTP(语言技术平台)
- 优点:准确率高,能有效处理歧义
- 缺点:训练成本高,需要人工标注语料
- 代表工具:jieba(HMM + 词典),HanLP(支持CRF)
4. 基于深度学习的分词算法
核心思路:通过深度神经网络学习字符间的边界关系,自动提取特征。
- 典型架构:
- BiLSTM-CRF(双向LSTM+条件随机场)
- Transformer/BERT + CRF:结合预训练语言模型提升效果
- 优点:泛化能力强,性能最优,支持端到端训练
- 缺点:训练数据需求大,计算资源要求高
- 代表系统:
- BERT-based 分词模型(如Tencent ChineseBERT)
- 百度的ERNIE分词模型
- HuggingFace上的中文分词模型
8.激活函数的作用?现在主流用哪个激活函数?
激活函数(Activation Function)主要作用有以下几点:
- 引入非线性能力
如果没有激活函数,神经网络每一层的输出就是线性变换,叠加再多层本质上还是线性函数,无法拟合复杂的数据。激活函数让网络可以学习复杂的非线性模式。 - 控制信息流动(选择性激活)
比如 ReLU 把负数置零,相当于“关掉”部分神经元,增强稀疏性,提高训练效率。 - 稳定梯度传播
选择合适的激活函数可以缓解梯度消失或爆炸的问题,使深层网络更容易训练。
现在主流的激活函数
激活函数 | 数学形式 | 特点 | 常用场景 |
---|---|---|---|
ReLU | f ( x ) = max ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x) | 简单高效,不易梯度消失;缺点是“神经元死亡”问题 | 默认首选 |
Leaky ReLU | f ( x ) = x ( x > 0 ) , a x a x ( x ≤ 0 , a ≈ 0.01 ) f(x) = x (x > 0), axax (x ≤ 0, a≈0.01) f(x)=x(x>0),axax(x≤0,a≈0.01) | 缓解ReLU死亡问题 | ReLU改进版 |
ELU / SELU | 具有负轴上的平滑性和指数特性 | 更稳定,适合深网络 | 深层网络、归一化搭配 |
Sigmoid | f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+e−x1 | 饱和区梯度小,易梯度消失 | 旧模型、二分类输出层 |
Tanh | f ( x ) = tanh ( x ) f(x) = \tanh(x) f(x)=tanh(x) | 比 sigmoid 输出均值更接近0 | RNN中较常用 |
Softmax | f ( x i ) = e x i ∑ j e x j f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} f(xi)=∑jexjexi | 将向量转为概率分布 | 多分类输出层 |
GELU | f ( x ) = x ⋅ Φ ( x ) f(x) = x \cdot \Phi(x) f(x)=x⋅Φ(x) | BERT等Transformer模型常用,效果优于ReLU | NLP领域主流 |
9.jieba分词当前还有使用场景吗?
1. 如果你使用 BERT 或其他 Transformer 模型:
通常不需要再用 jieba 分词。
- BERT 使用自己的 Tokenizer(如 WordPiece 或 SentencePiece)对中文进行“子词级别”的切分,比如将“花呗借钱”分成:
['花', '呗', '借', '钱']
- Tokenizer 自动处理未登录词和 OOV 问题,而且与预训练时使用的一致,避免了“分词标准不一致”带来的精度问题。
- 在文本分类、命名实体识别、文本生成等主流任务中,直接使用 BERT 的分词器效果更好且更标准化。
2. 但在以下场景下,jieba 仍然有用:
- 关键词提取、文本摘要、搜索引擎:需要词粒度的分词,jieba 快速高效,能提升 recall。
- 预处理前的可视化或人工审查:jieba 分词便于观察词语边界,辅助人工判断。
- 特征工程阶段(非深度学习模型):如 TF-IDF + XGBoost、SVM 等传统模型,jieba 分词仍是常见选择。
10.词性标注算法,当前主流有哪些?
方法 | 精度 | 特征工程 | 训练难度 | 代表模型/系统 |
---|---|---|---|---|
Rule-based | 一般 | 手工规则多 | 简单 | 中科院词性标注器 |
HMM | 中等 | 较少 | 低 | jieba(可选)、早期ICTCLAS |
CRF | 高 | 丰富 | 中 | THULAC、LTP、CRF++ |
BiLSTM-CRF | 较高 | 自动学习 | 中高 | HanLP、LTP3 |
BERT + CRF/MLP | 极高 | 端到端 | 高 | 百度LAC、Tencent ChineseBERT |