AI大模型学习路线-全技术栈
目录
- 1.前置知识
- 2.大模型应用基础
- 3.大模型实战主流开发框架
- 4.大模型应用实战之RAG开发
- 5.大模型应用实战之Agent开发
- 6.大模型微调
- 7.大模型实战工具
- 8.大模型项目实战
- 9.前沿:多模态
- 10.AI算法
1.前置知识
- 编程语言:Python、Java、Go、C#、JS
- 数学基础:高数、线代、概率论
2.大模型应用基础
- 基础认知
- AI 与大模型的发展历程:从机器学习到深度学习的飞跃、深度学习诞生
- 大模型与通用人工智能:大模型与AGI的关系
- AI 应用场景
- 自然语言处理NLP
- 分词、词性标注、命名实体识别
- 机器翻译、文本分类、问答系统
- 计算机视觉CV
- 图像分类、目标检测、语义分割
- 图像识别、视频分析
- 语音识别与合成:语音 > 文本、文本 > 语音
- 自然语言处理NLP
- 主流大模型的使用
- 国际:LIama(Meta)、GPT(OpenAI)、Gemini(Google)
- 国产:Deepseek(深度求索)、QWen(阿里)、文心一言(百度)、GLM(智谱清言)
- 大模型的功能特点、优势、适用场景、发展历程、关键因素、趋势
- 架构原理
- Transformer 架构讲解与动手实现
- 编码器、解码器结构
- 自注意力、多头注意力机制
- 大模型如何理解和表示、预测输入的内容
- Transformer 变体之Bert架构:使用上下文的双向预测模式(类似于填空)
- Transformer 变体之GPT架构:使用从前到后的单向预测模式(类似于补全)
- Transformer 架构讲解与动手实现
- MoE模型
- 工作原理、优点
- 模型应用:自然语言处理、计算机视觉、推荐系统
- 硬件基础
- GPU加速原理:GPU 和 CPU 计算核心的区别对比、CUDA核心/显存管理
- 混合精度训练:FP16/FP32混合使用
- 提示词工程设计
- 工程基础
- Prompt概念、在大模型应用的重要性
- 四要素:角色、目标、执行方案、输出格式
- 设计基本原则:简洁、上下文于语境的设计、问题明确、结构与非结构
- Prompt调优技巧
- 常见的工程设计策略:零样本提示、少样本提示、链式思考、自我一致性、思维树
- 优化输出效果:调整语句顺序、指令和示例的数量多样性、负面提示与约束、增强输出的精确度
- 高级Prompt工程技巧
- 指令模型 vs 推理模型的Prompt不同设计
- 复杂任务的多步骤Prompt设计
- 解析提示词对AI大模型反馈结果的影响
- 用 Prompt 调优 Prompt
- Prompt攻击与防范
- 工程基础
- 项目案例:短剧脚本、网络爆款文案、数据库查询SQL语句、文本生成任务、情感分析与文本分类、数据分析报告
3.大模型实战主流开发框架
- LangChain框架-Python
- 框架简介
- 核心组件:链架构(Chains、LCEL)、Memory记忆功能、智能体Agents、Retrieval(RAG架构、TEXT)
- 项目实战:构建智能问答系统、实现文档摘要生成、实现AI销售助手
- LangChain4J框架-Java
- 框架简介
- 核心组件
- 基础架构:LLM接口、内存管理、提示模板、链(实现复杂逻辑)、智能体(Agent)
- 聊天与语言模型:LLM API类型(LanguageModel、ChatLanguageModel)、消息类型(AiMessage)
- ChatMemory组件:消息管理、持久化、特殊消息处理
- AI Services使用:定位与优势、注解支持
- RAG:定义、索引阶段、检索阶段、类型(EasyRag…)、核心API组件(Document、Metadata…)
- 与SpringBoot3集成
- 项目实战:本地知识库问答、自动化报表分析、多模态AI助手(集成TTS/OCR)
- SpringAI && SpringAI Alibaba 框架
- 简介、定位、核心优势
- 核心组件
- 模型交互(Model I/O)
- 统一接口设计:AiClient
- 多模型支持:OpenAI、HuggingFace、本地模型集成
- 提示工程:动态提示模版与输出解析
- 数据整合(Retrieval)
- 向量数据库集成:RedisVectorStore、PgVector
- 文档处理链:文本分块、嵌入模型
- RAG实现:检索器与生成器组合
- 链式执行(Chains)
- 链式抽象
- 路由连
- 代理(Agents)
- 代理机制:基于ReAct的决策框架
- 工具集成
- 记忆管理(Memory)
- 对话状态存储:ChatMemory 接口
- 存储后端:Redis、In-Memory配置
- 项目实战:智能客服、文档自动生成摘要、RAG问答系统
- 模型交互(Model I/O)
4.大模型应用实战之RAG开发
- EmbeddingModels嵌入模型
- 常见嵌入技术:词嵌入、文本嵌入、图像音频嵌入、特征嵌入
- VectorStore向量存储
- 向量数据库:Milvus、Chroma、Pinecone、FAISS
- 核心操作
- 应用场景
- 文本相似度搜索:基于向量的文档匹配
- 图像识别检索:特征向量提取匹配
- 推荐系统:基于用户与物品的向量表示
- RAG工程化
- 概述:定义、优势、核心原理、工作流程
- 应用流程
- 数据准备阶段:数据提取 > 文本分割 > 向量化 > 数据入库
- 检索生成阶段:问题向量化 > 数据检索 > 注入Prompt > LLM生成答案
- 技术关键环节:数据检索、Prompt设计
- 技术迭代
- NaiveRAG > AdvancedRAG > ModularRAG
- GraphRAG
- AgenticRAG
- 使用效果评估
- 质量指标:上下文相关性、答案忠诚度、答案相关性
- 能力指标:噪声的鲁棒性、负面信息的排除能力、面对假设情况的健壮性
- 评估工具:RAGS评估、TruLens评估
- RAG在AI对话系统中的应用
- 使用RAG提升对话系统的表现与智能化
- 结合检索与生成的实际案例分析
5.大模型应用实战之Agent开发
- 智能体:基本架构功能(规划、记忆、工具使用、执行)
- 工具调用Funcation Calling:概念、应用、跨系统语言、优化
- 工作流Workflow:大模型应用工作流的关键要素解析、一键生成学术论文、一键生成爆款视频
- Agent系统:多Agent、AutoGen框架、MetaGPT框架、Muti-Agent会话
- LangGraph框架
- LangGraph Agent 架构、基于LangGraph构建AI Agent、基于LangGraph构建 Multi Agent(多智能体)
- 实战场景:实现多轮对话聊天机器人、构建负责多代理应用
- 项目实战:基于Dify构建智能体应用、数据分析助手、APP智能体、基于LangChain Agent构建下一代AI助手
6.大模型微调
- 模型微调基础
- 模型微调的概念
- 不同场景下微调的必要性
- 什么是训练/预训练/微调/轻量化微调
- 微调和RAG的关系
- 数据工程:采集、清洗、标注、增强、数据集划分
- 微调的核心流程
- 数据准备与清洗:选择高质量的数据集
- 微调技术要点:设置超参数、选择合适的训练方法
- 模型评估与验证:确保微调后模型的效果
- 选择微调框架
- pyTorch框架:搭建神经网络,定义模型结构、前向传播、反向传播的流程
- HuggingFaceTransformers工具
- unsloth框架
- LLaMA-Factory框架
- DeepSpeed
- 模型微调的概念
- 大模型训练技术
- 分布式训练
- 数据并行与模型并行
- 梯度累积与同步
- DeepSeed分布式训练/LlamaFactory/Xtuner
- 混合精度训练
- FP32与FP16混合使用
- 动态损失缩放
- 模型压缩与加速:剪枝技术、量化技术、知识蒸馏
- 分布式训练
- 微调技术与应用
- 微调策略
- 基于预训练模型的微调
- 基于特定数据集进行模型微调,包括数据准备、参数设置、训练过程
- 解决微调过程中过拟合、训练不收敛等常见问题的方法
- 轻量化微调技术详解:PromptTuning、P-Tuning、PrefixTuning、LoRA、QLoRA
- 微调策略
- 大模型微调实战
- 基于LoRA微调Qwen27B
- 基于QLoRA微调Llama38B
- 基于QLoRA微调GLM49B
- Huggingface模块开发实战:安装、开发、库中调用API、工具集、加载模型
- 项目实战:微调GPT:模型加载 > 数据加载 > 训练器
- DeepSeek深度解析
- DeepSeek的基础架构MoE深度解析
- DeepSeek核心优势
- DeepSeek-V3的关键技术解析
- DespSeek-R1的关键技术解析
- Deepseek中的创新点分析
- 模型架构
- 训练数据优势
- 通俗理解模型蒸馏技术以及实现原理
- 蒸催模型的变体与特征
- 蒸馏模型基本概述
- 详解Deepseek-r1的四阶段训练流程
- 训练目标
- 数据处理方式
- 模型參数调𤨣策略
7.大模型实战工具
- Ollama工具
- Dify AI 平台
- Claude Al IA
- Anthropic MCP
- AI 代码编程工具-Cursor AI
- Coze(扣子)平台
- AIGC
8.大模型项目实战
- GPT大型智能翻译助手项目
- 大模型企业级方案设计
- 基于GPT-40大模型+Langchain中间件
- 加载数据模块,AI模型加载模块,输出数据模块,可视化界面模块等
- 基于Gradio的Web界面,支持PDF,Word,MarkDown等各种文件格式
- 基于Transformer的NLP项目
- Transformer模型,以及搭建机器翻译系统
- Encoder-Decoder 架构与缩放点击注意力,实时语音和文字翻译模型
- 基于RAG贝売网智能客服问答系统
- GLM4-9B+ Langchain中间件
- Vector数据,相似检索
- 数据Split之后通过Embedding向量化
- Gradia的U界面,FastAPI接口,uvicorn服务器
- 京东客户购买意向预测项目
- 数据清洗,数据挖掘,数据探索,构建user信息
- 特征工程:数据处理维度,数据基本特征,用户类别,行为特征处理,构建数据集
- xsboots建模:s数据加载,模型训练,t特征重要性查看,算法预测验证数据,验证数据模型评估,测试数据模型评估
- TEXT2SQL+Qwen3大模型项目实战
- TEXT2SQL项目介绍
- 数据库连接以及langchain自带工具集学习
- 核心工作流开发:工作流规划-定义异步工作流-异步执行工作流
- 如何私有化部署最新Qwen3
- MCP服务端开发
9.前沿:多模态
- 多模态理论基础
- 多模态的最新进展
- 模态与多模态的概念
- 为什么需要多模态?通往AGI的必经之路
- 多模态技术应用领域
- 人机交互:多模态交互界面设计、多模态情感计算
- 智能安防:多模态身份认证、智能视频监控
- 医疗健康:远程医疗咨询、辅助诊断与治疗
- 智能教育:多模态学习资源、智能教学系统
- 大模型与计算机视觉
- 安防视觉识别模型原理
- 零件缺陷检测模型原理
- 医疗诊断识别模型原理
- 无人驾驶视觉模型原理
- 图像生成技术概述
- 扩散模型—Diffusion Model
- 基于Diffusion扩散模型的多模态模型
- 稳定扩散模型—StableDiffusion
- 多模态机器学习与典型任务
- 跨模态预训练
- Language-Audio / Vision-Audio / Vision-Language
- AffectComputing情感计算
- 多模态技术未来发展趋势
- 多模态的最新进展
- 多模态的微调与优化
- 多模态模型的微调:迁移学习、零样本学习
- 多模态模型的优化:剪枝、量化、蒸馏、压缩
- 项目实战:
- 案例1:基于 BLIP 的图生文
- 案例2:基于StableDiffusion的文生图
- 案例3:基于Llama-Vision的视觉问答
- 案例4:短视频脚本生成(GPT-4o+多模态提示)
- 案例5:医疗影像报告生成(BLIP+LLM)
10.AI算法
- Python数据分析:NumPy、 Pandas、Matplotlib
- 机器学习
- 概念与工具:特征工程、模型评估&模型选择
- 监督学习算法
- 线性回归、逻辑回归、KNN近邻算法
- 朴素贝叶斯、决策树、支持向量机、集成学习
- 无监督学习
- 聚类:K-means、高斯混合聚类、密度聚类、层次聚类、谱聚类
- 降维:主成分分析、奇异分解
- 深度学习、神经网络与PyTorch开发
- 神经网络基础:定义、分类、传统机器学习与深度学习的发展
- 神经网絡基本概念:损失函数、数值微分、梯度计算、随机梯度下降法
- PyTorch:安装、张量、利用PyTorch进行深度学习、问题分析
- 深度学习常见模型1:卷积神经网络CNN(图像特征提取、目标检测)
- 深度学习常见模型2:循环神经网络RNN(时间序列预测、自然语言处理NLP)
- NLP自然语言处理
- 概述、NP的两大核心任务:NLU/NUI、NIG
- NLP 的工作原理:文本预处理、特征提取、文本分析、模型训练
- 文本是如何转换为数据的
- 语言模型(N-Gram模型)
- 分词 - Tokenization
- Word2Vec 模型
- 打造能识别文本情感的模型
- 语言模型与注意力机制
- 大模型关键技术解析:预训练、SFT (Supervised Fine-Tunning)、RLHF(Reinforcement Learning from Human Feedback)