当前位置：首页 > backend >正文

计算机视觉与自然语言处理技术体系概述

backend 2025/8/25 11:30:25

计算机视觉与自然语言处理技术体系概述

计算机视觉
1. 图像分类
  1. Transformer
  2. CNN
  3. MLP
2. 目标检测
  1. YOLO
3. 图像分割
  1. FCN
  2. FPN
  3. U-Net
4. 目标跟踪
  1. deepsort
  2. YOLO
5. 图像生成
  1. GAN
自然语言处理
1. 文本分类
  1. KNN
2. 文本匹配
  1. DSSM
3. 文本生成
  1. RNN
4. 序列标注
  1. HMM

上述内容系统梳理了人工智能领域两大核心方向 ——计算机视觉（CV） 与自然语言处理（NLP） 的关键任务及对应主流技术，覆盖从 “感知世界” 到 “理解语言” 的核心能力模块，以下从两大领域分别展开概述，清晰呈现技术逻辑与应用定位。

一、计算机视觉（Computer Vision, CV）

计算机视觉的核心目标是让机器 “看懂” 图像或视频，模拟人类视觉系统对视觉信息的感知、分析与理解能力，上述梳理涵盖 5 类核心任务及对应技术，各任务层层递进，从 “判断类别” 到 “生成新图” 形成完整能力链。

1. 图像分类：判断 “是什么”

图像分类是 CV 最基础的任务，核心是给输入图像分配一个或多个预定义类别（如 “猫 / 狗”“汽车 / 行人”），是后续复杂任务的技术基础。

Transformer：近年主流技术，基于 “注意力机制”，能捕捉图像全局像素间的关联（如关注猫的耳朵、尾巴等关键部位），摆脱传统局部特征限制，代表模型有 ViT（Vision Transformer），在大数据集上精度优势显著。
CNN（卷积神经网络）：传统核心技术，通过 “卷积层” 提取图像局部特征（如边缘、纹理、形状），再经池化层压缩维度，逐步构建从低级到高级的特征表示（如从 “线条” 到 “猫的面部轮廓”），代表模型有 ResNet、AlexNet，至今仍是小数据集或实时场景的优选。
MLP（多层感知机）：早期基础模型，通过全连接层直接处理图像像素（需将 2D 图像展平为 1D 向量），但无法捕捉像素空间关联（如相邻像素的纹理信息），仅适用于简单低分辨率图像，目前已较少单独用于复杂图像分类。

2. 目标检测：定位 “在哪里 + 是什么”

目标检测在图像分类基础上增加 “定位” 能力，需同时输出图像中目标的类别与边界框坐标（如检测照片中 “3 个人” 的位置及每个人的框选范围），是自动驾驶、安防监控的核心技术。

YOLO（You Only Look Once）：实时检测领域的标杆技术，采用 “单阶段检测” 思路 —— 将图像划分为网格，直接在网格上预测目标类别与边界框，无需分 “先找候选框、再分类” 的多步骤，优势是速度极快（可满足实时视频检测），最新版本（如 YOLOv8）已兼顾速度与精度，广泛用于实时场景（如交通违章检测、工业缺陷检测）。

3. 图像分割：区分 “每一个像素属于谁”

图像分割比目标检测更精细，需将图像像素级划分为不同类别（如 “道路 / 行人 / 车辆”“肿瘤区域 / 正常组织”），实现 “像素级理解”，核心应用于医疗影像、自动驾驶、遥感图像分析。

FCN（全卷积网络）：分割领域的开创性模型，将 CNN 的 “全连接层” 替换为 “卷积层”，解决传统 CNN 无法输出与输入图像同分辨率结果的问题，能直接生成像素级分割图，但对小目标或细节的分割精度有限。
FPN（特征金字塔网络）：针对 “多尺度目标分割” 设计，通过构建 “特征金字塔” 融合不同层级的特征（浅层特征抓细节、深层特征抓全局），有效提升小目标（如图像中的小细胞、远处的小车辆）的分割精度，常作为其他分割模型的基础组件。
U-Net：医疗影像分割的 “黄金标准” 模型，采用 “编码器 - 解码器” 对称结构 —— 编码器下采样提取特征，解码器上采样恢复分辨率，同时通过 “跳跃连接” 将编码器的细节特征传递到解码器，大幅提升边缘、细节的分割精度，广泛用于 CT/MRI 图像的肿瘤分割、细胞分割。

4. 目标跟踪：追踪 “目标的动态轨迹”

目标跟踪聚焦视频序列，需在连续帧中定位并关联同一目标（如 “跟踪视频中某个人的行走路径”“跟踪监控中嫌疑车辆的移动轨迹”），核心依赖 “检测 + 关联” 逻辑，应用于安防、自动驾驶、视频分析。

DeepSORT（Deep Simple Online and Realtime Tracking）：主流跟踪算法，基于 “检测结果 + 运动模型 + 外观特征” 实现目标关联 —— 先用检测模型（如 YOLO）获取每帧目标位置，再通过卡尔曼滤波预测目标运动轨迹，结合深度学习提取的目标外观特征（如衣服颜色、车辆形状），解决目标遮挡、短暂消失后的重新关联问题，平衡跟踪精度与速度。
YOLO：此处作为 “跟踪的检测基础”，多数实时跟踪系统（如 YOLO+DeepSORT）会用 YOLO 作为帧内目标检测模块，为跟踪提供准确的初始目标位置，再由跟踪算法完成帧间关联。

5. 图像生成：创造 “新的图像”

图像生成是 CV 的创造性任务，需基于输入条件（如文本、草图、噪声）生成全新、逼真的图像，核心应用于 AI 绘画、图像修复、虚拟内容生成。

GAN（生成对抗网络）：生成领域的核心框架，由 “生成器” 和 “判别器” 对抗训练 —— 生成器尝试生成逼真图像，判别器尝试区分 “真实图像” 与 “生成图像”，二者迭代优化，最终生成器能输出以假乱真的图像，代表应用有 StyleGAN（生成人脸）、CycleGAN（图像风格迁移，如 “照片转油画”）。

二、自然语言处理（Natural Language Processing, NLP）

自然语言处理的核心目标是让机器 “理解” 和 “生成” 人类语言，实现人与机器的语言交互，上述梳理涵盖 4 类核心任务及对应技术，覆盖从 “分析文本” 到 “生成文本” 的核心能力。

1. 文本分类：判断 “文本属于哪类”

文本分类是 NLP 最基础的任务，核心是给输入文本分配预定义类别（如 “垃圾邮件 / 正常邮件”“正面评价 / 负面评价”“体育新闻 / 财经新闻”），是信息筛选、情感分析的基础。

KNN（K 近邻算法）：传统机器学习方法，核心逻辑是 “物以类聚”—— 将文本转化为向量（如 TF-IDF 向量）后，计算待分类文本与训练集中所有文本的相似度，取最相似的 K 个文本的类别作为待分类文本的类别，优势是实现简单、无需训练，但对高维文本向量（如长文本）的处理效率低，精度依赖相似度计算方式，目前更多用于小规模文本场景或基线模型。

2. 文本匹配：判断 “两个文本是否相关”

文本匹配聚焦 “文本对” 的关系判断，核心任务包括 “语义相似度计算”（如 “‘今天天气好’与‘今日阳光充足’是否相似”）、“问答匹配”（如 “用户问题与知识库答案是否匹配”），应用于搜索引擎、智能问答、推荐系统。

DSSM（深度语义相似模型）：深度学习时代的经典匹配模型，采用 “双塔结构”—— 将两个文本分别输入独立的神经网络（如 CNN、RNN），转化为低维语义向量，再通过计算向量相似度（如余弦相似度）判断文本相关性，优势是可单独训练 “文本 - 向量” 映射，支持大规模候选文本的快速匹配（如搜索引擎的召回阶段），至今仍是工业界常用模型。

3. 文本生成：创造 “符合语境的文本”

文本生成是 NLP 的创造性任务，需基于输入（如标题、关键词、上文）生成连贯、有意义的文本（如 “根据标题写新闻”“根据上文续写故事”“生成邮件回复”），核心应用于内容创作、智能写作、对话系统。

RNN（循环神经网络）：早期文本生成的核心模型，通过 “循环结构” 处理序列数据（文本是字符 / 词语的序列），能捕捉文本的上下文依赖（如 “我吃了____” 中，“饭” 比 “车” 更合理），但存在 “长距离依赖消失” 问题（无法捕捉长文本中前后遥远的关联，如小说中前文人物与后文情节的关联），目前已逐步被 Transformer（如 GPT 系列）替代，但仍是理解序列模型的基础。

4. 序列标注：给 “每个词语贴标签”

序列标注是 NLP 的精细分析任务，需给文本中的每个 token（字符或词语）标注特定标签，核心用于 “提取文本结构化信息”，应用于命名实体识别（NER）、词性标注（POS）、分词等。

HMM（隐马尔可夫模型）：传统统计学习模型，基于 “马尔可夫假设”（当前状态仅依赖前一状态）和 “观测独立性假设”（当前观测仅依赖当前状态），通过 “状态转移概率” 和 “观测概率” 实现标注，例如在词性标注中，“苹果” 后接 “很好吃” 时，标注为 “名词” 的概率高于 “动词”。HMM 实现简单、可解释性强，但无法捕捉复杂的上下文关联（如 “苹果” 在 “苹果公司” 中是 “专有名词”，在 “吃苹果” 中是 “普通名词”），目前更多用于基线模型或低资源场景，主流已被 BERT 等 Transformer 模型替代。

三、整体总结

上述技术体系呈现了 AI“感知（CV）” 与 “理解（NLP）” 两大方向的核心逻辑：

计算机视觉：从 “分类（整体判断）” 到 “检测（定位 + 分类）”“分割（像素级精细判断）”，再到 “跟踪（动态关联）”“生成（创造）”，实现从 “静态图像理解” 到 “动态视频分析” 再到 “视觉内容创造” 的能力升级；
自然语言处理：从 “分类（整体文本判断）” 到 “匹配（文本间关联）”“标注（精细信息提取）”，再到 “生成（文本创造）”，实现从 “文本浅层分析” 到 “语义深层理解” 再到 “语言内容创造” 的能力升级。

两类技术虽聚焦领域不同，但近年均呈现 “Transformer 化” 趋势（如 CV 的 ViT、NLP 的 GPT/BERT），且逐步走向跨模态融合（如 “文本生成图像”“图像生成描述”），成为人工智能技术落地的核心支柱。

查看全文

http://www.xdnf.cn/news/18604.html