AI实战笔记(1)AI 的 6 大核心方向 + 学习阶段路径
一、机器学习(ML)
目标:用数据“训练”模型,完成分类、回归、聚类等任务。
学习阶段:
(1)基础数学:线性代数、概率统计、微积分(适度)
(2) ML 基础算法:线性回归、决策树、KNN、SVM(用 scikit-learn)
(3)模型优化:交叉验证、正则化、特征工程
(4)无监督学习:K-Means、PCA、DBSCAN
(5)实战项目:房价预测、信用评分、客户分类等
推荐工具:Python、scikit-learn、XGBoost、LightGBM
二、深度学习(DL)
目标:构建神经网络完成图像识别、语音处理、自然语言理解等任务。
学习阶段:
(1)神经网络基本结构(MLP → CNN → RNN → Transformer)
(2)框架学习:PyTorch 或 TensorFlow
(3)任务场景:图像分类、文本情感分析、语音识别
(4)模型训练技巧:正则化、BatchNorm、Dropout、调参
(5)高阶内容:GAN、CapsuleNet、注意力机制
推荐工具:PyTorch、TensorFlow、Keras、Google Colab
三、计算机视觉(CV)
目标:让计算机“看懂”图像/视频。
学习阶段:
(1)图像处理基础:OpenCV(滤波、变换、边缘检测)
(2)图像分类:用 CNN 做猫狗识别、垃圾分类
(3)目标检测:YOLOv5、SSD、Faster-RCNN
(4)图像分割:UNet、DeepLabV3+
(5)多任务学习 + 视频分析
应用:人脸识别、安防监控、工业质检、图像增强等
四、自然语言处理(NLP)
目标:让 AI 理解、生成、翻译、总结自然语言文本。
学习阶段:
(1)分词、词性标注、TF-IDF、词向量(word2vec、GloVe)
(2)文本分类、情感分析(使用 RNN、BERT)
(3)预训练模型:BERT、RoBERTa、GPT
(4)文本生成、摘要、问答系统
(5)多语种、跨语言 NLP(如 MT)
应用:客服、搜索、问答、内容审核、摘要生成等
五、 多模态 AI
目标:让 AI 同时理解图像、文本、语音等多种信息。
学习阶段:
(1)图文联合嵌入:CLIP、BLIP、OFA
(2)图文问答系统:LLaVA、MiniGPT
(3)语音输入 + 视觉输出(Whisper + 图像生成)
(4)多模态搜索、理解、生成
应用:AI助理、AI绘图、内容审核、AR助手、交互系统
六、智能体(AI Agents)与大模型
目标:构建具备“感知-推理-记忆-执行”的 AI 系统。
学习阶段:
(1)理解 Prompt 工程与大模型能力(OpenAI、Claude、Gemini)
(2)使用 LangChain / AutoGen / CrewAI 编排对话与任务
(3)构建多 Agent 协作系统
(4)集成搜索、代码执行、数据库、Web 控制等工具
(5)使用本地大模型(如 LLaMA3、ChatGLM3)
应用:AI 助手、自动写代码、自动做报表、运维智能体、智能办公
七、综合学习路径建议(入门 → 应用 → 进阶)
(1)Python + ML + 简单模型 打好编程与思维基础
(2)DL 框架 + 图像/文本任务 能训练和部署模型
(3)API 使用 + OpenAI + 多模态 快速落地 AI 应用
(4)Agent 编排 + 本地模型 构建可自定义的智能系统
(5)自定义数据训练 + 微调 + 工程部署 成为独立 AI 开发者
八、选择方向与建议
(1)前端/全栈/Web -> 多模态 / Agent / NLP 工具集成
(2)C++/Qt 开发 ->CV + 推理部署 + 智能终端
(3)数据分析 / Python -> 机器学习 + NLP
(4)产品/交互设计 -> 多模态 + AI UX 设计
(5)AI 专业路线 -> 深度学习 + 论文 + 工程
欢迎关注我,一起交流!