当前位置: 首页 > ops >正文

大模型介绍

文章目录

  • 前言
  • 一、大模型的本地部署
    • 1、常用的大模型本地管理工具
    • 2、ollama的安装与使用
  • 二、大模型的微调
    • 1、主流微调方法
      • (1) 全量微调(Full Fine-Tuning)
      • (2)参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)
      • (3)知识蒸馏(Knowledge Distillation)
      • (4) 跨域微调(Offsite-Tuning)
    • 2、模型的微调
      • (1)模型微调GPU显存计算
      • (2)模型微调的方法
  • 三、提示词工程
    • 1、核心方法论
    • 2、高阶技巧
  • 四、Retrieval-Augmented Generation(检索增强生成)
    • 1、知识库更新问题
    • 2、检索生成增强
    • 3、 RAG的工作流程
  • 总结


前言

在这个连冰箱都能聊天的时代,人工智能正以“大模型”之名掀起巨浪。它们不是科幻电影里的神秘代码,而是由海量数据和复杂算法构建的智能引擎——能和你探讨哲学、生成代码、创作插画,甚至预测蛋白质结构。

大模型的核心在于“大”:数十亿参数构成的神经网络,吞噬着人类千年文明积累的文字、图像与知识。它们像一块数字海绵,从维基百科的严谨词条,到社交媒体的碎片化表达,不断吸收、重组,最终学会理解并模仿人类的思维方式。

这场革命已悄然渗透现实:程序员用AI助手调试代码,设计师与工具合作生成概念图,科学家借大模型加速药物研发。但硬币的另一面,关于创造力归属、伦理边界与人类价值的讨论也愈发激烈。

在这篇博客中,我们将拨开技术迷雾,解读大模型如何运作、为何重要,以及它如何重新定义“智能”的涵义——无论是跃跃欲试的开发者,还是警惕观望的思考者,这里都有你需要的认知坐标。

在这里插入图片描述

一、大模型的本地部署

1、常用的大模型本地管理工具

(1)Ollama:开源本地部署框架,支持快速导入/管理多类模型(如Llama3、Qwen),跨平台兼容且提供增量更新,适合开发者测试与原型验证。

(2)LM Studio:非技术用户友好的图形化工具,内置模型市场和类ChatGPT界面,支持参数调优与本地推理,无需代码即可操作。

(3)vLLM:高性能生产级推理框架,支持动态批处理、多GPU并行及OpenAI API兼容,专为高并发企业场景(如实时翻译)优化。

(4)AingDesk:一站式可视化平台,自动适配硬件并支持百款模型一键部署,集成联网搜索与知识库管理,适合企业协作。

(5)RWKV Runner:轻量化私有部署方案,通过模型压缩降低硬件需求,支持框架转换与免费模型服务,适配中小型项目。

(6)Jan:开源离线运行工具,预装70+模型并兼容OpenAI API,支持本地运行与TensorRT加速,扩展性强。

(7)Llamafile:单文件执行工具,将模型封装为ELF文件实现零依赖运行,跨平台兼容且适配嵌入式场景。

2、ollama的安装与使用

Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以执行一条命令就在本地运行开源大型语言模型。ollama官网:链接: https://ollama.com/
在这里插入图片描述
(1)ollama安装
点击上面的download之后,电脑本地就会有一个这样的启动器,双击即可安装ollama到本地
在这里插入图片描述
如何查看是否安装成功
win+R输入cmd,通过ollama list,查看ollama是否安装成功
在这里插入图片描述

(2)ollama中常用的命令

ollama serve	# 启动ollama
ollama create	# 从模型文件创建模型
ollama show	# 显示模型信息
ollama run	# 运行模型,会先自动下载模型
ollama pull	# 从注册仓库中拉取模型
ollama push	# 将模型推送到注册仓库
ollama list	# 列出已下载模型
ollama ps		# 列出正在运行的模型
ollama cp	# 复制模型
ollama rm	# 删除模型

(3)ollama下载模型
在ollama官网点击Model会进入下面的界面
在这里插入图片描述
在这里插入图片描述
在命令行窗口下载模型
在这里插入图片描述
下载中
在这里插入图片描述

(4)大模型参数量
在大模型(尤其是大型语言模型,LLMs)中,参数数量通常以“B”为单位进行表示,这里的“B”是英文单词“Billion”的缩写,意思是“十亿”。因此,当提到大模型中的“8B”时,它指的是模型具有80亿个参数。
具体来说,这些参数可以理解为模型内部的可训练“神经元”,它们在模型训练过程中被不断调整和优化,以使得模型能够执行特定的任务,如理解和生成人类语言。这些参数的数量决定了模型的复杂度和能力,一般来说,参数数量越多,模型的表达能力和泛化能力通常越强,但同时也需要更多的计算资源和时间来进行训练和推理。
在这里插入图片描述


二、大模型的微调

1、主流微调方法

微调模型而非从头训练的核心价值在于“高效复用”:通过继承预训练模型的海量通用知识(如语言结构、视觉规律),仅用少量领域数据调整部分参数,即可在数小时、单卡环境下实现专业任务适配,相比从头训练节省90%以上的数据与算力成本,使中小团队也能在医疗、法律等垂直领域快速部署高精度AI应用。

(1) 全量微调(Full Fine-Tuning)

原理:对预训练模型的全部参数进行更新,适配特定任务。

特点:性能最优,但需大量计算资源和数据,适合算力充足且任务数据量大的场景。

应用场景:图像分类、复杂NLP任务(如机器翻译)。

(2)参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)

核心思想:仅调整少量参数,降低计算成本。

LoRA(Low-Rank Adaptation)
通过低秩矩阵分解,在模型层间注入可训练参数,冻结原模型权重,显著减少参数量(如仅需调整0.07%参数)。

Adapter Tuning
在模型层间插入轻量适配模块,仅训练适配器参数,保持原模型不变。

Prompt Tuning/P-Tuning
通过添加可学习的提示词(Prompt)或前缀(Prefix),引导模型适应任务,无需修改模型结构。

Prefix-Tuning
在输入序列前添加连续向量前缀,优化生成任务的性能。

(3)知识蒸馏(Knowledge Distillation)

原理:用大模型(教师模型)的输出训练小模型(学生模型),降低部署成本。

优势:模型轻量化,适合移动端或边缘计算场景。

(4) 跨域微调(Offsite-Tuning)

代表技术:蚂蚁数科提出的ScaleOT框架,通过动态保留核心层和隐私保护技术,实现数据与模型分离的微调,解决隐私与性能的平衡问题。

2、模型的微调

Unsloth是一个开源的大模型训练加速项目,使用OpenAI的Triton对模型的计算过程进行重写,大幅提升模型的训练速度,降低训练中的显存占用。Unsloth能够保证重写后的模型计算的一致性,实现中不存在近似计算,模型训练的精度损失为零。Unsloth支持绝大多数主流的GPU设备,包括V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40等,支持对LoRA和QLoRA的训练加速和高效显存管理,支持Flash Attention。
下载链接: https://unsloth.ai/

(1)模型微调GPU显存计算

在这里插入图片描述

(2)模型微调的方法

高效微调(PERT):Lora
LoRA(Low-Rank Adaptation) 是一种高效的参数微调方法,专为大型模型(如GPT、LLaMA)设计,旨在以极低的计算成本实现高性能微调,尤其适合资源有限场景。
在这里插入图片描述
局限性
秩选择敏感:低秩矩阵的秩 r
需通过实验确定(通常取4-32),过小可能欠拟合,过大失去效率优势。

特定层依赖:对注意力层的query/value矩阵调整效果最佳,其他层可能需额外适配。
在这里插入图片描述
在这里插入图片描述
高效微调(PEFT ):QLora
QLoRA 是一种结合量化技术与低秩适配器(LoRA)的高效微调方法,专为在资源受限环境下微调大型语言模型(LLM)而设计。其核心目标是通过极低的显存占用实现接近全量微调的性能,使普通开发者甚至个人用户也能在消费级GPU上训练数十亿参数的模型。
在这里插入图片描述
局限性与未来方向
计算速度:4位推理速度较慢,需依赖硬件加速优化。

量化敏感性:部分模型层对量化误差敏感,需针对性调整秩参数(通常r=8~64)。

扩展方向:结合动态秩分配(如AdaLoRA)与多模态适配,进一步提升效率与精度。

QLoRA通过“量化+低秩”双引擎驱动,重新定义了LLM微调的经济性与可行性,成为资源受限场景下的首选方案。其开源生态与持续优化的工具链(如LLaMA Factory)将进一步推动AI民主化进程,将一个数据16bit转换为8bit来表示。

三、提示词工程

提示词工程是通过设计、优化输入文本(Prompt),引导大模型生成更精准、可控输出的技术,其核心在于“用自然语言编程”,无需修改模型参数即可解锁模型潜力。

提示词(Prompt):是一种指令、问题或语句,用于引导或指示AI语言模型生成特定的文本输出。它是用户与语言模型交互的起始点,告诉模型用户的意图,并期望模型以有意义且相关的方式回应。

提示词工程(Prompt Engineering):则是指对提示词进行精心设计和优化的过程,以达到更好的AI生成效果。这包括了解如何准确地表达需求,使AI能够理解并提供相关的回答。

1、核心方法论

指令明确性法则

(1)结构化模板:

"你是一名资深营养师,请为糖尿病患者设计一份包含早、中、晚餐的七日食谱,要求:  
1. 每日总热量不超过1800千卡  
2. 标注每餐碳水化合物含量(g)  
3. 避免使用升糖指数>70的食材"  

关键点:角色设定 + 任务目标 + 量化约束 + 排除条件。

(2)思维链(Chain-of-Thought, CoT)

原理:要求模型分步推理,激活逻辑处理能力。

"解方程 2x + 5 = 17,请逐步解释:  
第一步:等式两边减5 → 2x = 12  
第二步:两边除以2 → x = 6"  

进阶技巧:加入“请仔细思考,确保每一步正确”等强调词。

(3)少样本学习(Few-Shot Learning)

模式:提供1-5个输入-输出示例,建立任务范式。

代码生成示例:

输入:写一个Python函数,计算列表平均值  
输出:def avg(lst): return sum(lst)/len(lst)  
输入:写一个Python函数,过滤列表中的偶数  
输出:  

(4)多模态提示

图像+文本混合输入(如GPT-4V):

[上传产品设计草图]  
"分析这张智能手表设计图的用户交互逻辑,列出3个改进建议。"  

2、高阶技巧

(1)温度(Temperature)与Top-p调控

温度:低值(0.2)输出确定性高,适合事实问答;高值(0.8)激发创造性,适合诗歌生成。

Top-p(核采样):限制候选词概率累计阈值,平衡多样性与合理性。

(2)角色扮演强化

模板:

"假设你是诺贝尔经济学奖得主,用通俗语言解释通货膨胀对普通家庭的影响,并给出3条应对策略。"  

效果:激活模型中的领域知识分布。

(3)元提示(Meta-Prompt)

自省式提问:

"为确保回答准确,请先列出需要核实的3个关键数据源,再进行详细解答。"  

(4)对抗攻击防御

安全护栏:

"请以专业客观的视角分析气候变化议题,避免任何政治倾向或情绪化表达。"  

四、Retrieval-Augmented Generation(检索增强生成)

检索增强生成(RAG) 是一种结合 外部知识检索 与 大语言模型生成能力 的技术,旨在通过动态引入外部信息,解决传统生成模型的两大痛点:

静态知识限制:预训练模型无法实时更新知识(如新闻事件、领域数据库)。

生成不可控性:模型可能基于过时或错误信息产生“幻觉”(Hallucination)。

核心思想:
在生成答案前,先从外部知识库中检索相关文档或数据,并将这些信息作为上下文输入模型,从而生成更准确、可验证的响应。

1、知识库更新问题

最先进的LLM会接受大量的训练数据,将广泛的常识知识存储在神经网络的权重中。然而,当我们在提示大模型生成训练数据之外的知识时,例如最新知识、特定领域知识等,LLM的输出可能会导致事实不准确,这就是我们常说的模型幻觉。
在这里插入图片描述

2、检索生成增强

2020 年Lewis等人,提出了一种更灵活的技术,称为检索增强生成(RAG)[论文:链接: https://arxiv.org/abs/2005.11401]。在本文中,研究人员将生成模型与检索器模块相结合,以提供来自外部知识源的附加信息,并且这些信息可以很方便的进行更新维护。
简单来说,RAG 对于LLM来说就像学生的开卷考试一样。在开卷考试中,学生可以携带参考材料,例如课本或笔记,可以用来查找相关信息来回答问题。开卷考试背后的想法是,测试的重点是学生的推理能力,而不是他们记忆特定信息的能力。同样,事实知识与LLM的推理能力分离,并存储在外部知识源中,可以轻松访问和更新:
「参数知识」:在训练期间学习到的知识,隐式存储在神经网络的权重中。
「非参数知识」:存储在外部知识源中,例如向量数据库。

3、 RAG的工作流程

(1)输入问题

用户提交查询(如“如何治疗轻度高血压?”)。

(2)检索阶段

使用检索器从数据库(如医学文献库)中提取相关文档(Top-K相关段落)。

检索方法:

稀疏检索:基于关键词匹配(如BM25算法)。

稠密检索:将文本编码为向量,计算相似度(如使用Sentence-BERT模型)。

(3)上下文增强

将检索到的文档与原始问题拼接,形成增强输入:

"问题:如何治疗轻度高血压?  
相关文档:[文档1] 建议低盐饮食和每周150分钟有氧运动...  [文档2] 推荐药物包括ACE抑制剂..."  

可选优化:对检索结果去重、排序或摘要压缩。

(4)生成答案

生成模型基于增强后的上下文输出答案,例如:

"轻度高血压的非药物治疗包括:  
1. 饮食控制(每日钠摄入<2.3g)  
2. 规律运动(如快走、游泳)  
若无效,可考虑ACE抑制剂(需遵医嘱)。"  

总结

大模型凭借Transformer架构与海量数据,正推动人工智能从“感知”迈向“认知”,以LoRA/QLoRA为代表的微调技术让算力平民化,RAG系统通过“检索+生成”实现知识动态更新。从医疗诊断到法律咨询,垂直领域经历着智能重构,而提示词工程则成为人机协作的语义桥梁。这场革命不仅带来生产力的跃迁,更迫使我们重新审视创造力、伦理与人机共生的边界——当AI既能解析《哈姆雷特》的悲剧内核,也能编写代码、设计药物,人类正站在与机器共同进化的历史节点,探索如何驾驭技术浪潮,在智能爆炸中锚定自身价值。

http://www.xdnf.cn/news/8623.html

相关文章:

  • 动态规划dp
  • Java中==和equals()的终极对比
  • SpikingYOLOX
  • GATT 服务的核心函数bt_gatt_discover的介绍
  • Day 34
  • Docker 镜像标签(Tag)规范与要求
  • 历史数据分析——宁波港
  • 防火墙流量管理-带宽管理
  • OpenLayers 加载图层探查控件
  • Linux系统移植①:uboot概念
  • 基于规则匹配实现企业政策精准匹配实战案例
  • 《Java vs Go:现代编程语言的核心差异与设计哲学对比》
  • nginx 基于IP和用户的访问
  • LangGraph的智能评估
  • 【深度学习新浪潮】什么是MCP?
  • LangGraph:部署智能应用
  • 地理特征类相关可视化图像总结
  • stream数据流
  • 电子电路:再谈滤波原理及其应用
  • 再谈Linux 进程:进程等待、进程替换与环境变量
  • [Solution] git push error (exit code 128)
  • linux 内存碎片分析
  • Firecrawl MCP Server 深度使用指南
  • No such file or directory: ‘ffprobe‘
  • 构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
  • Spark MLlib的运维与管理
  • 接口性能测试-工具JMeter的学习
  • UDP和TCP示例程序
  • 【MySQL】第8节|Innodb底层原理与Mysql日志机制深入剖析(一)
  • 从稳定到卓越:服务器部署后的四大核心运维策略