AIGC理论基础:大模型通识
大家好,我是herosunly。985院校硕士毕业,现担任算法工程师一职,获得CSDN博客之星第一名,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次,其中包括阿里云、科大讯飞比赛第一名,CCF、开放原子比赛二等奖。在技术创新领域拥有多项授权发明。曾辅导多位非科班出身的同学成功进入算法行业就业。希望和大家一起成长进步。
本文主要介绍了AIGC理论基础:大模型通识,希望对学习大语言模型的同学们有所帮助。
文章目录
- 1. 大模型基本概念
- 2.大模型基本原理
- 2.1 大模型发展脉络
- 2.2 大模型核心结构
- 2.3 大模型训练及应用过程
- 3. 大模型能力范围
- 4. 大模型优势与不足
- 4.1 大模型优势
- 4.2 大模型能力不足
- 5. 大模型发展现状
- 5.1 从一方独霸到群雄逐鹿
- 5.2 模型上下文长度不断增加
- 5.3 模型输出模态不断增加
- 6. 大模型分类
- 6.1 按模态分类
- 6.2 按训练过程和功能定位分类
- 6.3 按开源情况分类
1. 大模型基本概念
大模型(LLM)的英文全称为Large Language Model,从狭义上指的是为自然语言处理(NLP)任务设计的机器学习模型。广义上还包括多模态大模型和科学计算大模型等。
可能会有同学提出疑问,多模态中的模态具体的含义是什么。简单来说,模态指的是数据的类型,其中包括文本、图像、语音、视频等。
而多模态大模型分为以下两大类:
- 输入和输出属于单一且不同模态,例如文本到图像,图像到文本
- 输入或者输出为多模态,例如,能同时处理文本和图像的系统
在自然语言处理中,token(词元)是文本处理的基本单位,而tokenizer是将输入文本拆分并映射成token id的工具。token在自然语言处理中就像汉字一样,是构成文本的基本单位。tokenizer的功能比传统字典更智能——它不仅能像字典那样识别每个汉字,更重要的是能像语文老师一样,将连续的句子合理地划分成有意义的词语或字符。
这里以Meta-Llama-3-8B为例,可以看到对中文和英文分词的结果不太一样,中文分词后的token为字或者词,而英文切分后的token往往是词根词缀。
2.大模型基本原理
2.1 大模型发展脉络
大模型架构分为Encoder-Only、Encoder-Decoder、Decoder-Only三种,这三种架构均源于Transformer模型。
2.2 大模型核心结构
**注意力机制(Attention Mechanism)**是Transformer模型的核心,它使模型能够动态地关注输入序列中的不同部分。注意力机制允许模型直接建立序列中任意位置元素之间的联系,有效捕捉长距离依赖关系。
相比传统的循环神经网络(RNN),Transformer具有以下优势:
- 长距离依赖建模:通过自注意力机制,Transformer能够直接建立序列中任意位置元素之间的联系,有效捕捉长距离依赖关系,而RNN在处理长序列时容易出现信息丢失。
- 避免梯度问题:Transformer架构避免了RNN中常见的梯度消失和梯度爆炸问题,使模型能够学习更长的序列依赖。
- 全局感受野:与CNN的局部感受野不同,Transformer的每个位置都能直接获取全局信息,无需通过多层堆叠来扩大感受野。
2.3 大模型训练及应用过程
大模型训练需要以下资源:
- 海量数据:包括互联网网页(如Common Crawl抓取的数十亿网页)、百科全书(如维基百科、百度百科的数千万页面)、书籍和文章(大量数字化图书和学术论文)以及代码库(用于训练模型理解和生成编程语言的代码片段)。
- 强大算力:通常使用GPU/TPU集群支持
- 参数调整:优化模型权重
3. 大模型能力范围
大模型的能力范围主要包括:
- 文本生成:创作各种类型的文本,如文章、故事、诗歌、邮件、产品描述、广告文案
- 文本分类:将文本划分到预先定义的类别中
- 情感分析:判断文本所表达的情感倾向(如积极、消极、中性)
- 知识问答:基于提供的上下文或其内部知识库回答问题
- 代码生成:编写代码片段,解释代码逻辑,调试代码错误,生成代码文档
- 语言翻译:在多种语言之间进行文本翻译
- 文本摘要:将长篇大论文章压缩成关键要点
4. 大模型优势与不足
4.1 大模型优势
1. 提升工作效率
- 通过对大量数据的学习和分析,自动执行繁琐任务
- 自动化繁琐任务:数据整理、分析、报告生成
- 释放人力专注核心工作:减少重复劳动时间
- 快速处理复杂问题:基于海量数据的精准共识
2. 激发创新能力
通过对大量知识的学习,AI大模型能够为我们提供非常的创意来源,进行多样化的思维训练,有助于我们在面对新挑战时,更加自信地做出创新的解决方案。
- 知识重整合:提供跨领域解决方案灵感
- 创意拓展:模拟场景生成创新方案
- 思维训练:通过交互突破知识边界
4.2 大模型能力不足
1. 模型幻觉/事实不准确性
大模型有时会生成看似合理但实际上不正确或与事实不符的信息(即"幻觉")。
2. 知识过时
LLM的知识被"冻结"在其训练数据的时间点,对于需要实时信息或快速发展的领域,LLM的知识很快就会过时。
3. 训练成本高昂
对LLM进行全面的再训练或针对特定领域进行微调需要巨大的计算资源和时间,成本非常高昂。例如:
- 2017年 Transformer (谷歌): 930$
- 2018年 BERT-Large (谷歌): 3,288$
- 2020年 GPT-3 175B (OpenAI): 4,324,883$
- 2023年 GPT-4 (OpenAI): 78,352,034$
- 2023年 Gemini Ultra (谷歌): 191,400,000$
5. 大模型发展现状
5.1 从一方独霸到群雄逐鹿
当前大模型发展呈现多家竞争的态势:
- OpenAI:持续推出GPT系列模型,如GPT-4o,支持多模态交互,并在语言理解、生成能力上保持领先
- Anthropic:由OpenAI前高管成立,专注安全可靠的大模型,代表作为Claude 3.5和Claude 3.7系列
- DeepSeek:最新发布的DeepSeek-R1是深度学习领域的突破之一,优借高性能、低成本、高开放性三大核心优势,在全球范围内引发强烈反响,并推动全球AI竞争格局的重构
- 科大讯飞:依托全国产算力智算平台,最新发布的讯飞星火4.0 Turbo及深度推理模型X1,对标GPT-4o,在复杂、代码、长文本等场景下推理等场达到国际一流水平
- 阿里巴巴:持续推出Qwen系列模型,最新发布的Qwen3系列模型包含含多个参数规模的模型,并支持119种语言和方言
5.2 模型上下文长度不断增加
大模型在处理长文本方面的能力不断提升:
- 长文本处理:直接总结长文本,无需分段或滑动窗口
- 问答增强:增加RAG的容错能力,提升文本的召回率
- 智能体:长上下文增加了"智能体"的记忆能力
各大模型厂商在上下文长度方面的进展:
- Google:推出的Gemini 1.5 Pro及续航的Gemini 2.0 Flash模型,支持高达100万tokens的上下文窗口,并特别强调了其在处理多模态(文本、图像、音频、视频)任务上的优势
- Anthropic:是长上下文窗口的早期探索者之一,其Claude 2模型上下文达到100K,后续的Claude 3.5 Sonnet和Claude 3.7 Sonnet模型支持200K tokens
- OpenAI:OpenAI的GPT-4系列后续模型,如GPT-4o,以及专注于推理的o1和o3-mini模型,提供了128K至200K tokens的上下文窗口
- Meta Llama:Meta的开源Llama系列模型也在不断扩展上下文长度,Llama 3.1、3.2和3.3版本均支持128K tokens
5.3 模型输出模态不断增加
大模型的能力正在从纯文本向多模态方向扩展:
- 多模理解:上传图片素材,大模型完成识别理解,返回关于图片的准确描述
- 视觉问答:回答上传图片素材,应用户的问题,大模型完成回答
- 多模生成:根据用户的描述,生成符合要求的合成音频和视频
- 虚拟人视频:描述期望的视频内容,基于AI虚拟人,快速生成配视频
6. 大模型分类
6.1 按模态分类
大模型可以根据处理的数据类型分为:
- 大语言模型:能够理解和生成文本数据的大模型,其主要特点是基于海量文本数据训练而成,其代表作品是OpenAI的GPT系列模型、谷歌Gemini、讯飞星火X1
- 语音大模型:能够理解和生成语音数据的大模型,其主要特点是基于语音数据训练而成,能够转换和识别语音,提取音频特征,进行语音合成等功能,代表作品为OpenAI的语音大模型Whisper、讯飞星火
- 多模态大模型:能够处理文本、图像等多模型数据的大模型,这类模型结合了自然语言处理与计算机视觉技术能力,可以多模态输出进行多模型分析,代表产品为OpenAI的GPT-4o、讯飞星火X4.0 Turbo
6.2 按训练过程和功能定位分类
- 基座模型(Base Model)
基座模型是大模型体系的基础,通过大规模多样化数据训练,具备广泛通用知识和基础能力,能够下游任务提供丰富知识储备和基础架构,是后续模型训练的基石。最新的研究表明:基座模型的能力会锁死推理模型的上限。但基座模型并不能直接回答用户的问题,这里以DeepSeek-V3-Base为例:
-
聊天模型(Chat Model)
聊天模型专注于自然语言交互,基于大量对话数据训练,可理解用户问题,生成流畅、符合语境的回复,模拟人类对话方式,实现人机问自然、高效交流,广泛应用于智能客服、陪伴聊天等场景。 -
推理模型(Inference Model)
推理模型是先生成思维链,再生成回复内容。它通过对输入信息深度分析、关联和判断,解决复杂问题。它从数据中挖掘在关系和知识,能够有效完成数学分析、逻辑推理等任务。
6.3 按开源情况分类
-
闭源大模型:由企业或机构完全掌控模型架构、训练数据和核心技术,仅通过API或商业产品提供服务。典型代表包括OpenAI的GPT-4o、Anthropic的Claude3.7、讯飞星火4.0 Turbo等深度推理模型等。
-
开源大模型:公开模型架构和完整权重参数,允许自由使用、修改和分发。例如Mistral系列模型、DeepSeek系列模型、讯飞的FlytekSpark-13B模型等。