AI公司在做什么 - 一文穿透大模型(从底层到应用、从硬件到软件、从原理到实战)
目的:覆盖从基础到进阶的内容知识理解。从软件到硬件,从开发到部署讲解大模型工作及原理。
大模型即大语言模型(英文:Large Language Model,缩写LLM),即大型语言模型 (LLM), 大型语言模型 (LLM) 之所以大,是指具有大规模参数和复杂计算结构(超过 10 亿个参数),LLM通常基于 Transformer 模型架构,由深度神经网络构建,对海量数据进行预训练处理。 大模型的底层转换器包含一系列神经网络,分为编码器和解码器,且具有自注意力功能。
简单来说,大模型有两个特点:
(1) LLM模型基本上是一个具有大量参数/海量参数的神经网络。
例如,GPT-3有1750亿个参数,而GPT-4有超过1万亿个参数。
(2)LLM是在大量文本数据集(如书籍、网站或用户生成内容)上进行训练的。
对很多大模型小白(尤其是懂点编码的技术人员)来说,一个直观的问题是:大模型的表现形式,是什么?
是一个可以执行的程序?
是一个数据库?
实际上, 一个训练好的大模型,是一个 特定格式的文件
比如,Meta 开发并“开放”的LLaMA-2大模型,所发布的SFT、RLHF两个版本中,都提供了7B、13B 和70B的三个参数规模的模型。如下是llama-2-70b 表现形式。
LLM 是通过深度学习得到的,是一个由大量参数组成的神经网络模型。Transformer是构建语言模型的深度学习架构,比如GPT系列模型。该架构优化了RNN和CNN,而是采用完全依赖于注意力机制的架构。
神经网络是一种受人脑启发的机器学习算法。由多层神经元构成,每一个神经元是一个处理函数,它接收信号,经过处理后输出信号,处理过程可以理解为y=f(z)。
模型训练的过程是通过在大量数据上反复迭代调整模型参数,利用训练集进行学习,通过验证集评估并优化,最终使模型能够在新数据上做出准确预测的过程。
模型训练的过程是神经网络中的大量神经元进行密集的并行计算的过程,每个神经元的计算处理过程相对并不复杂,而GPU具有众多核心,从而加速模型训练过程。相比 CPU,GPU 拥有更多的数据处理单元、更高的算力与内存带宽,所以为什么模型训练需要GPU机器,CPU 适合复杂、灵活的逻辑运算,GPU 适合简单、大规模的并行运算。
- Hugging Face:开源的模型和数据集仓库,提供了大量的预训练模型。如GPT4o、Gemini排名根据这个网站来点评。
- Model Scope:阿里云的Model Scope平台也提供了多种开源模型,包括视频生成模型等。
- Google Cloud:Google Cloud提供的模型平台,包括一些开源模型和框架,如TensorFlow、PyTorch等。
检索增强生成技术(Retrieval-Augmented Generation) 是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术,旨在提高语言模型的性能和知识性。
RAG 工作原理
- 检索(Retrieval):
- 步骤:在生成回答之前,RAG会先从一个外部知识库(如文档集合、数据库等)中检索与输入查询最相关的文档片段或信息。
- 方法:通常使用向量检索技术,将输入查询和知识库中的文档转换为向量表示,然后通过计算向量之间的相似度来找到最相关的文档片段。
- 目的:通过检索外部知识,为语言模型提供最新的、相关的背景信息,从而提高生成内容的准确性和知识性。
- 生成(Generation):
- 步骤:检索到的相关文档片段会被送入语言模型,作为生成回答的上下文信息。
- 方法:语言模型(如Transformer架构的模型)会结合检索到的文档片段和输入查询,生成最终的回答。
- 目的:利用检索到的外部知识,使生成的回答更加准确、详细和有根据。
RAG 技术可以在构建知识库中发挥重要作用。比如现在的模型联网搜索功能,也是RAG的一种应用,通过RAG技术从互联网或其他大型数据库中检索信息,增加回答。模型本身是不具备联网功能的,联网功能是工具实现的一种手段。
是一个存储和管理知识的系统,企业或机构可以通过储存领域知识来形成自己的企业知识库。知识库可以协助大模型更精准的得到答案,增加模型生成的效果。
大语言模型 (LLM) 擅长解决许多类型的问题。但是,它们受到以下限制:
- 模型在训练后被冻结,导致知识过时。
- 无法查询或修改外部数据。
函数调用可以解决这些缺点。函它允许模型使用外部工具,例如 API 和函数。通过Function Calling,大模型能够动态地调用外部工具和服务,从而提供更准确、更实时的信息。比如说获取天气信息,通过函数调用获取天气的api实现功能。
但是Funciton calling的一限制是需要手动编码实现函数调用的过程。其次函数需要预定义。
MCP 是一种更复杂的框架,它在大语言模型和工具执行层之间引入了一个标准化的协议。它允许模型动态选择和调用工具,并且可以管理工具的执行和状态。模型通过标准化的协议与工具执行层通信。在MCP之前,实现外部调用的主要方式是Funciton calling,MCP协议出来之后,省去了直接预定义函数的过程,MCP从中间层做了解耦,调用外部工具更方便。
通过精心设计 提示词,我们可以引导模型关注输入数据中的关键信息,从而提高模型在各种自然语言处理任务上的性能。提示词工程 的核心思想是: 将问题表述为一种容易被模型理解和解答的形式。
简单的解释:我们给大模型一个模版,让模型按照模版填空回答问题。
这个过程我们不关心大模型的工作原理,而是利用大模型的能力,为了让大模型输出更准确的结果。
Agent 可以理解为一个独立的AI 大模型代理节点,负责完成指定工作,例如获取天气、分析行驶数据等, 该节点的处理可以引入一个大模型完成。创建一个Agent。
工作流(Workflows)是将一个或多个类似的Agent整理成更细致的流程,来帮助我们完成工作。例如新建一个工作流,根据使用者不同的意图来完成图像识别、网页抓取等不同的工作。
同时工作流可以结合企业知识库等更好的构建流程,目前大部分非模型研发公司都是基于智能体工作流在协助工作。
模型微调(Model Fine-Tuning) 是一种在预训练模型基础上进行进一步训练的技术。预训练模型通常在大规模数据集上进行训练,以学习通用的语言模式和特征。微调则是将这些预训练模型应用于特定任务或领域,通过在特定数据集上进行额外训练来优化模型性能。
微调流程
预训练(Pretraining)是在大规模数据集上对模型进行初步训练,以学习通用的特征和模式。预训练模型通常在无监督或自监督学习任务上进行训练,目的是让模型学习到数据的通用表示。可以以预训练模型为基础进行深一步的模型微调。例如GPT,它的核心思想是先在大规模无标注文本数据上进行预训练,学习通用的语言模式和特征。预训练一般需要消耗巨大的计算资源。
常用的开发方式主要为以下两种:
Dify和Langchain 成为两大核心智能体 开发的代表 框架 。
Dify | Coze | Ragflow ...
- 属于低代码开发框架,提供可视化界面和低代码配置,通过拖拽组件、配置表单等方式实现应用开发,无需编写大量代码,适合非技术人员快速上手。
- 集成RAG引擎、Agent框架和多模型支持,支持Prompt编排、数据操作和API集成,提供LLMOps全生命周期管理
LangChain
- LangChain:属于高代码开发框架,需要开发者具备Python或JS编程经验,通过编写代码来实现各种功能,学习曲线较陡,适合有技术背景的开发者
- 采用模块化设计,包含Model I/O、Retrieval、Agents等模块,支持复杂链式调用和动态代理交互,开源生态丰富
选型建议:简单的企业级业务开发用Dify,高度复杂的互联网业务应用使用LangChain。
六、算力选型与成本(A100、H100、A800、H800、H20)
型号 | 市场定位 | 市场价 | 主要使用场景 | 关键限制 |
A100 | 高端AI训练/HPC | 12-15万,中国市场二手/黑市价高 | 大规模AI训练、高性能计算、云服务 | 受美国出口管制,中国市场受限 |
H100 | 旗舰级AI训练/HPC | 30万元/卡,整机配置(如8卡集群)价格超 220万元 | 超大规模AI训练(如GPT-4)、超算 | 受美国出口管制,中国市场受限 |
A800 | 中国特供版AI训练 | 7万元/卡,整机价格约 15万元 | 替代A100,适用于中国市场的AI训练/推理 | - |
H800 | 中国特供版AI训练 | 6万元/卡 ,整机230万元 | 替代H100,适用于受限市场的AI训练 | |
H20 | 中国特供版AI推理 | 约6万~8万元/卡 | AI推理、中小规模训练 | 算力低于H100/H800,但LLM推理优化。8卡集群年成本超 100万元,支持70B参数模型推理优化 |
像H100、A100、H800、A800、H200、GB200等性能更强的AI芯片,美国一律不准英伟达卖给中国市场。 H20 是目前英伟达能够在国内销售的唯一专用AI芯片 。H20 英伟达是 阉割了又阉割的 H100 芯片,以H100为基础,阉割掉了80%以上的性能,特供给中国的。由于deepseek的崛起,H20市场火爆,好多企业库存耗尽。
芯片。
因为低性能也可以使用,且生态更强。 如果本身是用CUDA训练出来的模型,如果使用其它生态,不使用CUDA可能需 要花费高达6个月的时间成本,还不一定可以切换成功,风险很大。
Deepseek-R1 生产部署成本 约 200万/年
QWeb2-32B 部署方案,适用于个人环 境、测试环境,成本5万/年。
推荐
- 智星云 https://www.ai-galaxy.cn/
- AutoDL https://www.autodl.com/
- 通往AGI之路 开源开放的AGI知识文档
- https://ai-bot.cn/#term-2 AI 工具集
- https://www.aibase.com/zh AI 资讯类,最新前沿资讯
- https://feizhuke.com/#term-6606
- Cursor 当前口碑评分排行第一的编程工具。支持多种主流大模型,也支持接入私有模型。收费价格稍高,使用期有免费体验次数。
- Tare 字节对标Cursor的低代码编程IDE,国内版免费,且可以使用豆包等模型。
- 文心快码 百度
- Windsurf 新晋低代码AI 编程工具。排名迅速上升,目前较Cursor还有一定差距
- Openhands 生成能力更强,对于前端可以直接运行查看效果,本地部署需要较高性能机器,否则运行较慢,可以选择对接任意外部模型。公版具有50美元免费额度试用。
- Github Copilot : 基于github代码库完成训练的模型,编程能力超强,超越99%的程序员,需要使用者具有很好的提示词表达能力。IDEA、vscode都有插件。
- 通义灵码 | 文心一言|豆包
知识库是利用基础大模型的能力通过知识库检索来增加模型回答的准确性和限制性。微调是在基础模型的基础上利用知识库的知识来重新训练模型达到一个更智能的模型。
长文本主要通过提示词构建超长上下文,现在各大模型都支持超长上下文,从最开始的 4K 到现在的 200K,我们能不能用一个比较完善的提示词来代替模型微调解决这些问题呢?
长文本
- 质量不高
- token消耗大
- 注意力分散
知识库
- 准确
- 灵活
- 依赖检索
- 实时性高
微调
- 成本��高
- 实时性好