当前位置：首页 > backend >正文

AI公司在做什么 - 一文穿透大模型（从底层到应用、从硬件到软件、从原理到实战）

backend 2025/7/2 7:57:09

目的：覆盖从基础到进阶的内容知识理解。从软件到硬件，从开发到部署讲解大模型工作及原理。

一、基础知识

1. 大模型的定义

大模型即大语言模型（英文：Large Language Model，缩写LLM），即大型语言模型 (LLM)，大型语言模型 (LLM) 之所以大，是指具有大规模参数和复杂计算结构（超过 10 亿个参数），LLM通常基于 Transformer 模型架构，由深度神经网络构建，对海量数据进行预训练处理。大模型的底层转换器包含一系列神经网络，分为编码器和解码器，且具有自注意力功能。

简单来说，大模型有两个特点：

（1） LLM模型基本上是一个具有大量参数/海量参数的神经网络。

例如，GPT-3有1750亿个参数，而GPT-4有超过1万亿个参数。

（2）LLM是在大量文本数据集（如书籍、网站或用户生成内容）上进行训练的。

2. 大模型的表现形式

对很多大模型小白（尤其是懂点编码的技术人员）来说，一个直观的问题是：大模型的表现形式，是什么？

是一个可以执行的程序？

是一个数据库？

实际上， 一个训练好的大模型，是一个特定格式的文件

比如，Meta 开发并“开放”的LLaMA-2大模型，所发布的SFT、RLHF两个版本中，都提供了7B、13B 和70B的三个参数规模的模型。如下是llama-2-70b 表现形式。

3. Transformer架构

LLM 是通过深度学习得到的，是一个由大量参数组成的神经网络模型。Transformer是构建语言模型的深度学习架构，比如GPT系列模型。该架构优化了RNN和CNN，而是采用完全依赖于注意力机制的架构。

4. 神经网络

神经网络是一种受人脑启发的机器学习算法。由多层神经元构成，每一个神经元是一个处理函数，它接收信号，经过处理后输出信号，处理过程可以理解为y=f(z)。

二、模型训练

1. 模型训练的简易过程

模型训练的过程是通过在大量数据上反复迭代调整模型参数，利用训练集进行学习，通过验证集评估并优化，最终使模型能够在新数据上做出准确预测的过程。

2. CPU与GPU

模型训练的过程是神经网络中的大量神经元进行密集的并行计算的过程，每个神经元的计算处理过程相对并不复杂，而GPU具有众多核心，从而加速模型训练过程。相比 CPU，GPU 拥有更多的数据处理单元、更高的算力与内存带宽，所以为什么模型训练需要GPU机器，CPU 适合复杂、灵活的逻辑运算，GPU 适合简单、大规模的并行运算。

3. 为什么需要模型训练

4. 模型部署

5. 服务架构与传统的互联网服务架构一致

6. 如何获取基础模型

Hugging Face：开源的模型和数据集仓库，提供了大量的预训练模型。如GPT4o、Gemini排名根据这个网站来点评。

Model Scope：阿里云的Model Scope平台也提供了多种开源模型，包括视频生成模型等。

Google Cloud：Google Cloud提供的模型平台，包括一些开源模型和框架，如TensorFlow、PyTorch等。

7. 如何获取数据集

三、通用名词解释

1. RAG

检索增强生成技术（Retrieval-Augmented Generation）是一种结合了检索（Retrieval）和生成（Generation）的自然语言处理技术，旨在提高语言模型的性能和知识性。

RAG 工作原理

检索（Retrieval）：

步骤：在生成回答之前，RAG会先从一个外部知识库（如文档集合、数据库等）中检索与输入查询最相关的文档片段或信息。

方法：通常使用向量检索技术，将输入查询和知识库中的文档转换为向量表示，然后通过计算向量之间的相似度来找到最相关的文档片段。

目的：通过检索外部知识，为语言模型提供最新的、相关的背景信息，从而提高生成内容的准确性和知识性。

生成（Generation）：

步骤：检索到的相关文档片段会被送入语言模型，作为生成回答的上下文信息。

方法：语言模型（如Transformer架构的模型）会结合检索到的文档片段和输入查询，生成最终的回答。

目的：利用检索到的外部知识，使生成的回答更加准确、详细和有根据。

RAG 技术可以在构建知识库中发挥重要作用。比如现在的模型联网搜索功能，也是RAG的一种应用，通过RAG技术从互联网或其他大型数据库中检索信息，增加回答。模型本身是不具备联网功能的，联网功能是工具实现的一种手段。

2. 知识库

是一个存储和管理知识的系统，企业或机构可以通过储存领域知识来形成自己的企业知识库。知识库可以协助大模型更精准的得到答案，增加模型生成的效果。

3. Funciton calling

大语言模型 (LLM) 擅长解决许多类型的问题。但是，它们受到以下限制：

模型在训练后被冻结，导致知识过时。

无法查询或修改外部数据。

函数调用可以解决这些缺点。函它允许模型使用外部工具，例如 API 和函数。通过Function Calling，大模型能够动态地调用外部工具和服务，从而提供更准确、更实时的信息。比如说获取天气信息，通过函数调用获取天气的api实现功能。

但是Funciton calling的一限制是需要手动编码实现函数调用的过程。其次函数需要预定义。

4. MCP

MCP 是一种更复杂的框架，它在大语言模型和工具执行层之间引入了一个标准化的协议。它允许模型动态选择和调用工具，并且可以管理工具的执行和状态。模型通过标准化的协议与工具执行层通信。在MCP之前，实现外部调用的主要方式是Funciton calling，MCP协议出来之后，省去了直接预定义函数的过程，MCP从中间层做了解耦，调用外部工具更方便。

四、大模型相关研究方向分类(由浅入深)

1. 提示词工程（Prompt Engineering）

通过精心设计提示词，我们可以引导模型关注输入数据中的关键信息，从而提高模型在各种自然语言处理任务上的性能。提示词工程的核心思想是: 将问题表述为一种容易被模型理解和解答的形式。

简单的解释：我们给大模型一个模版，让模型按照模版填空回答问题。

这个过程我们不关心大模型的工作原理，而是利用大模型的能力，为了让大模型输出更准确的结果。

2. （工作流|Agent）智能体工作流开发

Agent 可以理解为一个独立的AI 大模型代理节点，负责完成指定工作，例如获取天气、分析行驶数据等，该节点的处理可以引入一个大模型完成。创建一个Agent。

工作流（Workflows）是将一个或多个类似的Agent整理成更细致的流程，来帮助我们完成工作。例如新建一个工作流，根据使用者不同的意图来完成图像识别、网页抓取等不同的工作。

同时工作流可以结合企业知识库等更好的构建流程，目前大部分非模型研发公司都是基于智能体工作流在协助工作。

3. 模型微调（Fine-tuning）

模型微调（Model Fine-Tuning）是一种在预训练模型基础上进行进一步训练的技术。预训练模型通常在大规模数据集上进行训练，以学习通用的语言模式和特征。微调则是将这些预训练模型应用于特定任务或领域，通过在特定数据集上进行额外训练来优化模型性能。

微调流程

4. 预训练（Pre-training）

预训练（Pretraining）是在大规模数据集上对模型进行初步训练，以学习通用的特征和模式。预训练模型通常在无监督或自监督学习任务上进行训练，目的是让模型学习到数据的通用表示。可以以预训练模型为基础进行深一步的模型微调。例如GPT，它的核心思想是先在大规模无标注文本数据上进行预训练，学习通用的语言模式和特征。预训练一般需要消耗巨大的计算资源。

五、智能体框架选择

常用的开发方式主要为以下两种：

Dify和Langchain 成为两大核心智能体开发的代表框架。

Dify | Coze | Ragflow ...

属于低代码开发框架，提供可视化界面和低代码配置，通过拖拽组件、配置表单等方式实现应用开发，无需编写大量代码，适合非技术人员快速上手。

集成RAG引擎、Agent框架和多模型支持，支持Prompt编排、数据操作和API集成，提供LLMOps全生命周期管理

LangChain

LangChain：属于高代码开发框架，需要开发者具备Python或JS编程经验，通过编写代码来实现各种功能，学习曲线较陡，适合有技术背景的开发者

采用模块化设计，包含Model I/O、Retrieval、Agents等模块，支持复杂链式调用和动态代理交互，开源生态丰富

选型建议：简单的企业级业务开发用Dify，高度复杂的互联网业务应用使用LangChain。

六、算力选型与成本（A100、H100、A800、H800、H20）

型号	市场定位	市场价	主要使用场景	关键限制
A100	高端AI训练/HPC	12-15万，中国市场二手/黑市价高	大规模AI训练、高性能计算、云服务	受美国出口管制，中国市场受限
H100	旗舰级AI训练/HPC	30万元/卡，整机配置(如8卡集群)价格超 220万元	超大规模AI训练（如GPT-4）、超算	受美国出口管制，中国市场受限
A800	中国特供版AI训练	7万元/卡，整机价格约 15万元	替代A100，适用于中国市场的AI训练/推理	-
H800	中国特供版AI训练	6万元/卡，整机230万元	替代H100，适用于受限市场的AI训练
H20	中国特供版AI推理	约6万~8万元/卡	AI推理、中小规模训练	算力低于H100/H800，但LLM推理优化。8卡集群年成本超 100万元，支持70B参数模型推理优化

像H100、A100、H800、A800、H200、GB200等性能更强的AI芯片，美国一律不准英伟达卖给中国市场。 H20 是目前英伟达能够在国内销售的唯一专用AI芯片。H20 英伟达是阉割了又阉割的 H100 芯片，以H100为基础，阉割掉了80%以上的性能，特供给中国的。由于deepseek的崛起，H20市场火爆，好多企业库存耗尽。

芯片。

为什么不使用国产AI芯片？宁愿使用H20

因为低性能也可以使用，且生态更强。如果本身是用CUDA训练出来的模型，如果使用其它生态，不使用CUDA可能需要花费高达6个月的时间成本，还不一定可以切换成功，风险很大。

企业生产使用模型建议及成本

Deepseek-R1 生产部署成本约 200万/年

QWeb2-32B 部署方案，适用于个人环境、测试环境，成本5万/年。

小型算力平台

相关文章：