当前位置：首页 > ops >正文

大模型介绍

ops 2025/7/29 14:22:09

文章目录

前言
一、大模型的本地部署
- 1、常用的大模型本地管理工具
- 2、ollama的安装与使用
二、大模型的微调
- 1、主流微调方法
- - （1）全量微调（Full Fine-Tuning）
  - （2）参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）
  - （3）知识蒸馏（Knowledge Distillation）
  - （4）跨域微调（Offsite-Tuning）
- 2、模型的微调
- - （1）模型微调GPU显存计算
  - （2）模型微调的方法
三、提示词工程
- 1、核心方法论
- 2、高阶技巧
四、Retrieval-Augmented Generation（检索增强生成）
- 1、知识库更新问题
- 2、检索生成增强
- 3、 RAG的工作流程
总结

前言

在这个连冰箱都能聊天的时代，人工智能正以“大模型”之名掀起巨浪。它们不是科幻电影里的神秘代码，而是由海量数据和复杂算法构建的智能引擎——能和你探讨哲学、生成代码、创作插画，甚至预测蛋白质结构。

大模型的核心在于“大”：数十亿参数构成的神经网络，吞噬着人类千年文明积累的文字、图像与知识。它们像一块数字海绵，从维基百科的严谨词条，到社交媒体的碎片化表达，不断吸收、重组，最终学会理解并模仿人类的思维方式。

这场革命已悄然渗透现实：程序员用AI助手调试代码，设计师与工具合作生成概念图，科学家借大模型加速药物研发。但硬币的另一面，关于创造力归属、伦理边界与人类价值的讨论也愈发激烈。

在这篇博客中，我们将拨开技术迷雾，解读大模型如何运作、为何重要，以及它如何重新定义“智能”的涵义——无论是跃跃欲试的开发者，还是警惕观望的思考者，这里都有你需要的认知坐标。

在这里插入图片描述

一、大模型的本地部署

1、常用的大模型本地管理工具

（1）Ollama：开源本地部署框架，支持快速导入/管理多类模型（如Llama3、Qwen），跨平台兼容且提供增量更新，适合开发者测试与原型验证。

（2）LM Studio：非技术用户友好的图形化工具，内置模型市场和类ChatGPT界面，支持参数调优与本地推理，无需代码即可操作。

（3）vLLM：高性能生产级推理框架，支持动态批处理、多GPU并行及OpenAI API兼容，专为高并发企业场景（如实时翻译）优化。

（4）AingDesk：一站式可视化平台，自动适配硬件并支持百款模型一键部署，集成联网搜索与知识库管理，适合企业协作。

（5）RWKV Runner：轻量化私有部署方案，通过模型压缩降低硬件需求，支持框架转换与免费模型服务，适配中小型项目。

（6）Jan：开源离线运行工具，预装70+模型并兼容OpenAI API，支持本地运行与TensorRT加速，扩展性强。

（7）Llamafile：单文件执行工具，将模型封装为ELF文件实现零依赖运行，跨平台兼容且适配嵌入式场景。

2、ollama的安装与使用

Ollama是一个开源的大型语言模型服务工具，它帮助用户快速在本地运行大模型。通过简单的安装指令，用户可以执行一条命令就在本地运行开源大型语言模型。ollama官网：链接: https://ollama.com/
在这里插入图片描述
（1）ollama安装
点击上面的download之后，电脑本地就会有一个这样的启动器，双击即可安装ollama到本地

如何查看是否安装成功
win+R输入cmd，通过ollama list，查看ollama是否安装成功

（2）ollama中常用的命令

ollama serve	# 启动ollama
ollama create	# 从模型文件创建模型
ollama show	# 显示模型信息
ollama run	# 运行模型，会先自动下载模型
ollama pull	# 从注册仓库中拉取模型
ollama push	# 将模型推送到注册仓库
ollama list	# 列出已下载模型
ollama ps		# 列出正在运行的模型
ollama cp	# 复制模型
ollama rm	# 删除模型

（3）ollama下载模型
在ollama官网点击Model会进入下面的界面
在这里插入图片描述

在命令行窗口下载模型

下载中

（4）大模型参数量
在大模型（尤其是大型语言模型，LLMs）中，参数数量通常以“B”为单位进行表示，这里的“B”是英文单词“Billion”的缩写，意思是“十亿”。因此，当提到大模型中的“8B”时，它指的是模型具有80亿个参数。
具体来说，这些参数可以理解为模型内部的可训练“神经元”，它们在模型训练过程中被不断调整和优化，以使得模型能够执行特定的任务，如理解和生成人类语言。这些参数的数量决定了模型的复杂度和能力，一般来说，参数数量越多，模型的表达能力和泛化能力通常越强，但同时也需要更多的计算资源和时间来进行训练和推理。
在这里插入图片描述

二、大模型的微调

1、主流微调方法

微调模型而非从头训练的核心价值在于“高效复用”：通过继承预训练模型的海量通用知识（如语言结构、视觉规律），仅用少量领域数据调整部分参数，即可在数小时、单卡环境下实现专业任务适配，相比从头训练节省90%以上的数据与算力成本，使中小团队也能在医疗、法律等垂直领域快速部署高精度AI应用。

（1）全量微调（Full Fine-Tuning）

原理：对预训练模型的全部参数进行更新，适配特定任务。

特点：性能最优，但需大量计算资源和数据，适合算力充足且任务数据量大的场景。

应用场景：图像分类、复杂NLP任务（如机器翻译）。

（2）参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）

核心思想：仅调整少量参数，降低计算成本。

LoRA（Low-Rank Adaptation）
通过低秩矩阵分解，在模型层间注入可训练参数，冻结原模型权重，显著减少参数量（如仅需调整0.07%参数）。

Adapter Tuning
在模型层间插入轻量适配模块，仅训练适配器参数，保持原模型不变。

Prompt Tuning/P-Tuning
通过添加可学习的提示词（Prompt）或前缀（Prefix），引导模型适应任务，无需修改模型结构。

Prefix-Tuning
在输入序列前添加连续向量前缀，优化生成任务的性能。

（3）知识蒸馏（Knowledge Distillation）

原理：用大模型（教师模型）的输出训练小模型（学生模型），降低部署成本。

优势：模型轻量化，适合移动端或边缘计算场景。

（4）跨域微调（Offsite-Tuning）

代表技术：蚂蚁数科提出的ScaleOT框架，通过动态保留核心层和隐私保护技术，实现数据与模型分离的微调，解决隐私与性能的平衡问题。

2、模型的微调

Unsloth是一个开源的大模型训练加速项目，使用OpenAI的Triton对模型的计算过程进行重写，大幅提升模型的训练速度，降低训练中的显存占用。Unsloth能够保证重写后的模型计算的一致性，实现中不存在近似计算，模型训练的精度损失为零。Unsloth支持绝大多数主流的GPU设备，包括V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40等，支持对LoRA和QLoRA的训练加速和高效显存管理，支持Flash Attention。
下载链接： https://unsloth.ai/

（1）模型微调GPU显存计算

在这里插入图片描述

（2）模型微调的方法

高效微调（PERT）：Lora
LoRA（Low-Rank Adaptation）是一种高效的参数微调方法，专为大型模型（如GPT、LLaMA）设计，旨在以极低的计算成本实现高性能微调，尤其适合资源有限场景。
在这里插入图片描述
局限性
秩选择敏感：低秩矩阵的秩 r
需通过实验确定（通常取4-32），过小可能欠拟合，过大失去效率优势。

特定层依赖：对注意力层的query/value矩阵调整效果最佳，其他层可能需额外适配。
在这里插入图片描述

高效微调(PEFT )：QLora
QLoRA 是一种结合量化技术与低秩适配器（LoRA）的高效微调方法，专为在资源受限环境下微调大型语言模型（LLM）而设计。其核心目标是通过极低的显存占用实现接近全量微调的性能，使普通开发者甚至个人用户也能在消费级GPU上训练数十亿参数的模型。
在这里插入图片描述
局限性与未来方向
计算速度：4位推理速度较慢，需依赖硬件加速优化。

量化敏感性：部分模型层对量化误差敏感，需针对性调整秩参数（通常r=8~64）。

扩展方向：结合动态秩分配（如AdaLoRA）与多模态适配，进一步提升效率与精度。

QLoRA通过“量化+低秩”双引擎驱动，重新定义了LLM微调的经济性与可行性，成为资源受限场景下的首选方案。其开源生态与持续优化的工具链（如LLaMA Factory）将进一步推动AI民主化进程，将一个数据16bit转换为8bit来表示。

三、提示词工程

提示词工程是通过设计、优化输入文本（Prompt），引导大模型生成更精准、可控输出的技术，其核心在于“用自然语言编程”，无需修改模型参数即可解锁模型潜力。

提示词（Prompt）：是一种指令、问题或语句，用于引导或指示AI语言模型生成特定的文本输出。它是用户与语言模型交互的起始点，告诉模型用户的意图，并期望模型以有意义且相关的方式回应。

提示词工程（Prompt Engineering）：则是指对提示词进行精心设计和优化的过程，以达到更好的AI生成效果。这包括了解如何准确地表达需求，使AI能够理解并提供相关的回答。

1、核心方法论

指令明确性法则

（1）结构化模板：

"你是一名资深营养师，请为糖尿病患者设计一份包含早、中、晚餐的七日食谱，要求：  
1. 每日总热量不超过1800千卡  
2. 标注每餐碳水化合物含量（g）  
3. 避免使用升糖指数>70的食材"

关键点：角色设定 + 任务目标 + 量化约束 + 排除条件。

（2）思维链（Chain-of-Thought, CoT）

原理：要求模型分步推理，激活逻辑处理能力。

"解方程 2x + 5 = 17，请逐步解释：  
第一步：等式两边减5 → 2x = 12  
第二步：两边除以2 → x = 6"

进阶技巧：加入“请仔细思考，确保每一步正确”等强调词。

（3）少样本学习（Few-Shot Learning）

模式：提供1-5个输入-输出示例，建立任务范式。

代码生成示例：

输入：写一个Python函数，计算列表平均值  
输出：def avg(lst): return sum(lst)/len(lst)  
输入：写一个Python函数，过滤列表中的偶数  
输出：

（4）多模态提示

图像+文本混合输入（如GPT-4V）：

[上传产品设计草图]  
"分析这张智能手表设计图的用户交互逻辑，列出3个改进建议。"

2、高阶技巧

（1）温度（Temperature）与Top-p调控

温度：低值（0.2）输出确定性高，适合事实问答；高值（0.8）激发创造性，适合诗歌生成。

Top-p（核采样）：限制候选词概率累计阈值，平衡多样性与合理性。

（2）角色扮演强化

模板：

"假设你是诺贝尔经济学奖得主，用通俗语言解释通货膨胀对普通家庭的影响，并给出3条应对策略。"

效果：激活模型中的领域知识分布。

（3）元提示（Meta-Prompt）

自省式提问：

"为确保回答准确，请先列出需要核实的3个关键数据源，再进行详细解答。"

（4）对抗攻击防御

安全护栏：

"请以专业客观的视角分析气候变化议题，避免任何政治倾向或情绪化表达。"

四、Retrieval-Augmented Generation（检索增强生成）

检索增强生成（RAG）是一种结合外部知识检索与大语言模型生成能力的技术，旨在通过动态引入外部信息，解决传统生成模型的两大痛点：

静态知识限制：预训练模型无法实时更新知识（如新闻事件、领域数据库）。

生成不可控性：模型可能基于过时或错误信息产生“幻觉”（Hallucination）。

核心思想：
在生成答案前，先从外部知识库中检索相关文档或数据，并将这些信息作为上下文输入模型，从而生成更准确、可验证的响应。

1、知识库更新问题

最先进的LLM会接受大量的训练数据，将广泛的常识知识存储在神经网络的权重中。然而，当我们在提示大模型生成训练数据之外的知识时，例如最新知识、特定领域知识等，LLM的输出可能会导致事实不准确，这就是我们常说的模型幻觉。
在这里插入图片描述

2、检索生成增强

2020 年Lewis等人，提出了一种更灵活的技术，称为检索增强生成（RAG）[论文：链接: https://arxiv.org/abs/2005.11401]。在本文中，研究人员将生成模型与检索器模块相结合，以提供来自外部知识源的附加信息，并且这些信息可以很方便的进行更新维护。
简单来说，RAG 对于LLM来说就像学生的开卷考试一样。在开卷考试中，学生可以携带参考材料，例如课本或笔记，可以用来查找相关信息来回答问题。开卷考试背后的想法是，测试的重点是学生的推理能力，而不是他们记忆特定信息的能力。同样，事实知识与LLM的推理能力分离，并存储在外部知识源中，可以轻松访问和更新：
「参数知识」：在训练期间学习到的知识，隐式存储在神经网络的权重中。
「非参数知识」：存储在外部知识源中，例如向量数据库。

3、 RAG的工作流程

（1）输入问题

用户提交查询（如“如何治疗轻度高血压？”）。

（2）检索阶段

使用检索器从数据库（如医学文献库）中提取相关文档（Top-K相关段落）。

检索方法：

稀疏检索：基于关键词匹配（如BM25算法）。

稠密检索：将文本编码为向量，计算相似度（如使用Sentence-BERT模型）。

（3）上下文增强

将检索到的文档与原始问题拼接，形成增强输入：

"问题：如何治疗轻度高血压？  
相关文档：[文档1] 建议低盐饮食和每周150分钟有氧运动...  [文档2] 推荐药物包括ACE抑制剂..."

可选优化：对检索结果去重、排序或摘要压缩。

（4）生成答案

生成模型基于增强后的上下文输出答案，例如：

"轻度高血压的非药物治疗包括：  
1. 饮食控制（每日钠摄入<2.3g）  
2. 规律运动（如快走、游泳）  
若无效，可考虑ACE抑制剂（需遵医嘱）。"

总结

大模型凭借Transformer架构与海量数据，正推动人工智能从“感知”迈向“认知”，以LoRA/QLoRA为代表的微调技术让算力平民化，RAG系统通过“检索+生成”实现知识动态更新。从医疗诊断到法律咨询，垂直领域经历着智能重构，而提示词工程则成为人机协作的语义桥梁。这场革命不仅带来生产力的跃迁，更迫使我们重新审视创造力、伦理与人机共生的边界——当AI既能解析《哈姆雷特》的悲剧内核，也能编写代码、设计药物，人类正站在与机器共同进化的历史节点，探索如何驾驭技术浪潮，在智能爆炸中锚定自身价值。

查看全文

http://www.xdnf.cn/news/8623.html