当前位置：首页 > web >正文

AI大模型学习路线-全技术栈

web 2025/7/21 15:08:54

1.前置知识

编程语言：Python、Java、Go、C#、JS
数学基础：高数、线代、概率论

2.大模型应用基础

基础认知
- AI 与大模型的发展历程：从机器学习到深度学习的飞跃、深度学习诞生
- 大模型与通用人工智能：大模型与AGI的关系
AI 应用场景
- 自然语言处理NLP
  - 分词、词性标注、命名实体识别
  - 机器翻译、文本分类、问答系统
- 计算机视觉CV
  - 图像分类、目标检测、语义分割
  - 图像识别、视频分析
- 语音识别与合成：语音 > 文本、文本 > 语音
主流大模型的使用
- 国际：LIama（Meta）、GPT（OpenAI）、Gemini（Google）
- 国产：Deepseek（深度求索）、QWen（阿里）、文心一言（百度）、GLM（智谱清言）
大模型的功能特点、优势、适用场景、发展历程、关键因素、趋势
架构原理
- Transformer 架构讲解与动手实现
  - 编码器、解码器结构
  - 自注意力、多头注意力机制
  - 大模型如何理解和表示、预测输入的内容
- Transformer 变体之Bert架构：使用上下文的双向预测模式（类似于填空）
- Transformer 变体之GPT架构：使用从前到后的单向预测模式（类似于补全）
MoE模型
- 工作原理、优点
- 模型应用：自然语言处理、计算机视觉、推荐系统
硬件基础
- GPU加速原理：GPU 和 CPU 计算核心的区别对比、CUDA核心/显存管理
- 混合精度训练：FP16/FP32混合使用
提示词工程设计
- 工程基础
  - Prompt概念、在大模型应用的重要性
  - 四要素：角色、目标、执行方案、输出格式
  - 设计基本原则：简洁、上下文于语境的设计、问题明确、结构与非结构
  - Prompt调优技巧
    - 常见的工程设计策略：零样本提示、少样本提示、链式思考、自我一致性、思维树
    - 优化输出效果：调整语句顺序、指令和示例的数量多样性、负面提示与约束、增强输出的精确度
- 高级Prompt工程技巧
  - 指令模型 vs 推理模型的Prompt不同设计
  - 复杂任务的多步骤Prompt设计
  - 解析提示词对AI大模型反馈结果的影响
  - 用 Prompt 调优 Prompt
  - Prompt攻击与防范
项目案例：短剧脚本、网络爆款文案、数据库查询SQL语句、文本生成任务、情感分析与文本分类、数据分析报告

3.大模型实战主流开发框架

LangChain框架-Python
- 框架简介
- 核心组件：链架构（Chains、LCEL）、Memory记忆功能、智能体Agents、Retrieval（RAG架构、TEXT）
- 项目实战：构建智能问答系统、实现文档摘要生成、实现AI销售助手
LangChain4J框架-Java
- 框架简介
- 核心组件
  - 基础架构：LLM接口、内存管理、提示模板、链（实现复杂逻辑）、智能体（Agent）
  - 聊天与语言模型：LLM API类型（LanguageModel、ChatLanguageModel）、消息类型（AiMessage）
  - ChatMemory组件：消息管理、持久化、特殊消息处理
  - AI Services使用：定位与优势、注解支持
  - RAG：定义、索引阶段、检索阶段、类型（EasyRag…）、核心API组件（Document、Metadata…）
  - 与SpringBoot3集成
- 项目实战：本地知识库问答、自动化报表分析、多模态AI助手（集成TTS/OCR）
SpringAI && SpringAI Alibaba 框架
- 简介、定位、核心优势
- 核心组件
  - 模型交互（Model I/O）
    - 统一接口设计：AiClient
    - 多模型支持：OpenAI、HuggingFace、本地模型集成
    - 提示工程：动态提示模版与输出解析
  - 数据整合（Retrieval）
    - 向量数据库集成：RedisVectorStore、PgVector
    - 文档处理链：文本分块、嵌入模型
    - RAG实现：检索器与生成器组合
  - 链式执行（Chains）
    - 链式抽象
    - 路由连
  - 代理（Agents）
    - 代理机制：基于ReAct的决策框架
    - 工具集成
  - 记忆管理（Memory）
    - 对话状态存储：ChatMemory 接口
    - 存储后端：Redis、In-Memory配置
  - 项目实战：智能客服、文档自动生成摘要、RAG问答系统

4.大模型应用实战之RAG开发

EmbeddingModels嵌入模型
- 常见嵌入技术：词嵌入、文本嵌入、图像音频嵌入、特征嵌入
VectorStore向量存储
- 向量数据库：Milvus、Chroma、Pinecone、FAISS
- 核心操作
- 应用场景
  - 文本相似度搜索：基于向量的文档匹配
  - 图像识别检索：特征向量提取匹配
  - 推荐系统：基于用户与物品的向量表示
RAG工程化
- 概述：定义、优势、核心原理、工作流程
- 应用流程
  1. 数据准备阶段：数据提取 > 文本分割 > 向量化 > 数据入库
  2. 检索生成阶段：问题向量化 > 数据检索 > 注入Prompt > LLM生成答案
  3. 技术关键环节：数据检索、Prompt设计
- 技术迭代
  - NaiveRAG > AdvancedRAG > ModularRAG
  - GraphRAG
  - AgenticRAG
- 使用效果评估
  - 质量指标：上下文相关性、答案忠诚度、答案相关性
  - 能力指标：噪声的鲁棒性、负面信息的排除能力、面对假设情况的健壮性
  - 评估工具：RAGS评估、TruLens评估
- RAG在AI对话系统中的应用
  - 使用RAG提升对话系统的表现与智能化
  - 结合检索与生成的实际案例分析

5.大模型应用实战之Agent开发

智能体：基本架构功能（规划、记忆、工具使用、执行）
工具调用Funcation Calling：概念、应用、跨系统语言、优化
工作流Workflow：大模型应用工作流的关键要素解析、一键生成学术论文、一键生成爆款视频
Agent系统：多Agent、AutoGen框架、MetaGPT框架、Muti-Agent会话
LangGraph框架
- LangGraph Agent 架构、基于LangGraph构建AI Agent、基于LangGraph构建 Multi Agent（多智能体）
- 实战场景：实现多轮对话聊天机器人、构建负责多代理应用
项目实战：基于Dify构建智能体应用、数据分析助手、APP智能体、基于LangChain Agent构建下一代AI助手

6.大模型微调

模型微调基础
- 模型微调的概念
  - 不同场景下微调的必要性
  - 什么是训练/预训练/微调/轻量化微调
  - 微调和RAG的关系
- 数据工程：采集、清洗、标注、增强、数据集划分
- 微调的核心流程
  1. 数据准备与清洗：选择高质量的数据集
  2. 微调技术要点：设置超参数、选择合适的训练方法
  3. 模型评估与验证：确保微调后模型的效果
- 选择微调框架
  - pyTorch框架：搭建神经网络，定义模型结构、前向传播、反向传播的流程
  - HuggingFaceTransformers工具
  - unsloth框架
  - LLaMA-Factory框架
  - DeepSpeed
大模型训练技术
- 分布式训练
  - 数据并行与模型并行
  - 梯度累积与同步
  - DeepSeed分布式训练/LlamaFactory/Xtuner
- 混合精度训练
  - FP32与FP16混合使用
  - 动态损失缩放
- 模型压缩与加速：剪枝技术、量化技术、知识蒸馏
微调技术与应用
- 微调策略
  - 基于预训练模型的微调
  - 基于特定数据集进行模型微调，包括数据准备、参数设置、训练过程
  - 解决微调过程中过拟合、训练不收敛等常见问题的方法
- 轻量化微调技术详解：PromptTuning、P-Tuning、PrefixTuning、LoRA、QLoRA
大模型微调实战
- 基于LoRA微调Qwen27B
- 基于QLoRA微调Llama38B
- 基于QLoRA微调GLM49B
Huggingface模块开发实战：安装、开发、库中调用API、工具集、加载模型
项目实战：微调GPT：模型加载 > 数据加载 > 训练器
DeepSeek深度解析
- DeepSeek的基础架构MoE深度解析
- DeepSeek核心优势
  - DeepSeek-V3的关键技术解析
  - DespSeek-R1的关键技术解析
- Deepseek中的创新点分析
  - 模型架构
  - 训练数据优势
- 通俗理解模型蒸馏技术以及实现原理
  - 蒸催模型的变体与特征
  - 蒸馏模型基本概述
- 详解Deepseek-r1的四阶段训练流程
  1. 训练目标
  2. 数据处理方式
  3. 模型參数调𤨣策略

7.大模型实战工具

Ollama工具
Dify AI 平台
Claude Al IA
Anthropic MCP
AI 代码编程工具-Cursor AI
Coze（扣子）平台
AIGC

8.大模型项目实战

GPT大型智能翻译助手项目
- 大模型企业级方案设计
- 基于GPT-40大模型+Langchain中间件
- 加载数据模块，AI模型加载模块，输出数据模块，可视化界面模块等
- 基于Gradio的Web界面，支持PDF,Word,MarkDown等各种文件格式
基于Transformer的NLP项目
- Transformer模型，以及搭建机器翻译系统
- Encoder-Decoder 架构与缩放点击注意力，实时语音和文字翻译模型
基于RAG贝売网智能客服问答系统
- GLM4-9B+ Langchain中间件
- Vector数据，相似检索
- 数据Split之后通过Embedding向量化
- Gradia的U界面，FastAPI接口，uvicorn服务器
京东客户购买意向预测项目
- 数据清洗，数据挖掘，数据探索，构建user信息
- 特征工程：数据处理维度，数据基本特征，用户类别，行为特征处理，构建数据集
- xsboots建模：s数据加载，模型训练，t特征重要性查看，算法预测验证数据，验证数据模型评估，测试数据模型评估
TEXT2SQL+Qwen3大模型项目实战
- TEXT2SQL项目介绍
- 数据库连接以及langchain自带工具集学习
- 核心工作流开发：工作流规划-定义异步工作流-异步执行工作流
- 如何私有化部署最新Qwen3
- MCP服务端开发

9.前沿：多模态

多模态理论基础
- 多模态的最新进展
  - 模态与多模态的概念
  - 为什么需要多模态？通往AGI的必经之路
- 多模态技术应用领域
  - 人机交互：多模态交互界面设计、多模态情感计算
  - 智能安防：多模态身份认证、智能视频监控
  - 医疗健康：远程医疗咨询、辅助诊断与治疗
  - 智能教育：多模态学习资源、智能教学系统
- 大模型与计算机视觉
  - 安防视觉识别模型原理
  - 零件缺陷检测模型原理
  - 医疗诊断识别模型原理
  - 无人驾驶视觉模型原理
- 图像生成技术概述
  - 扩散模型—Diffusion Model
  - 基于Diffusion扩散模型的多模态模型
  - 稳定扩散模型—StableDiffusion
- 多模态机器学习与典型任务
  - 跨模态预训练
  - Language-Audio / Vision-Audio / Vision-Language
  - AffectComputing情感计算
- 多模态技术未来发展趋势
多模态的微调与优化
- 多模态模型的微调：迁移学习、零样本学习
- 多模态模型的优化：剪枝、量化、蒸馏、压缩
项目实战：
- 案例1：基于 BLIP 的图生文
- 案例2：基于StableDiffusion的文生图
- 案例3：基于Llama-Vision的视觉问答
- 案例4：短视频脚本生成（GPT-4o+多模态提示）
- 案例5：医疗影像报告生成（BLIP+LLM）

10.AI算法

Python数据分析：NumPy、 Pandas、Matplotlib
机器学习
- 概念与工具：特征工程、模型评估&模型选择
- 监督学习算法
  - 线性回归、逻辑回归、KNN近邻算法
  - 朴素贝叶斯、决策树、支持向量机、集成学习
- 无监督学习
  - 聚类：K-means、高斯混合聚类、密度聚类、层次聚类、谱聚类
  - 降维：主成分分析、奇异分解
深度学习、神经网络与PyTorch开发
- 神经网络基础：定义、分类、传统机器学习与深度学习的发展
- 神经网絡基本概念：损失函数、数值微分、梯度计算、随机梯度下降法
- PyTorch：安装、张量、利用PyTorch进行深度学习、问题分析
- 深度学习常见模型1：卷积神经网络CNN（图像特征提取、目标检测）
- 深度学习常见模型2：循环神经网络RNN（时间序列预测、自然语言处理NLP）
NLP自然语言处理
- 概述、NP的两大核心任务：NLU/NUI、NIG
- NLP 的工作原理：文本预处理、特征提取、文本分析、模型训练
- 文本是如何转换为数据的
  - 语言模型（N-Gram模型）
  - 分词 - Tokenization
  - Word2Vec 模型
  - 打造能识别文本情感的模型
- 语言模型与注意力机制
- 大模型关键技术解析：预训练、SFT (Supervised Fine-Tunning)、RLHF(Reinforcement Learning from Human Feedback)