当前位置：首页 > ops >正文

大模型（7）——向量模型（向量化存储）

ops 2025/7/22 14:22:03

文章目录

- - 一、核心概念
  - 二、Embedding模型分类
  - - 1. 文本Embedding模型
    - 2. 多模态Embedding模型
    - 3. 领域专用模型
  - 三、Embedding模型的核心技术
  - - 1. 训练方法
    - 2. 损失函数
    - 3. 向量归一化
  - 四、实现步骤（以文本Embedding为例）
  - - 1. 使用预训练模型（推荐）
    - 2. 自定义训练（需数据）
  - 五、应用场景
  - 六、优化技巧
  - 七、评估指标
  - 八、挑战与解决方案
  - 九、工具与库推荐
  - 十、未来方向

向量模型（Embedding Model）是将离散数据（如文本、图像、音频等）转化为连续向量表示（即嵌入向量/Embeddings）的机器学习模型。这些向量能够捕捉数据的语义信息，并用于相似性计算、检索、聚类等任务。以下是关于Embedding模型的详细解析：

一、核心概念

什么是Embedding？
- 将高维离散数据（如单词、句子、图片）映射到低维连续向量空间（通常几十到几千维）。
- 示例：单词"猫" → [0.2, -0.5, 0.7, …]，句子"我喜欢编程" → [1.1, -0.3, 0.9, …]。
关键特性：
- 语义保留：相似内容在向量空间中距离相近（如"狗"和"猫"的向量余弦相似度高）。
- 可计算性：支持向量运算（如“国王 - 男 + 女 ≈ 女王”）。
- 降维稠密表示：相比One-Hot编码更高效。

二、Embedding模型分类

1. 文本Embedding模型

词级别（Word Embedding）：
- Word2Vec：Skip-gram/CBOW模型，通过上下文预测学习词向量。
- GloVe：基于全局词共现矩阵的统计方法。
句/文档级别（Sentence/Document Embedding）：
- BERT/SimCSE：基于Transformer的上下文相关嵌入。
- Sentence-BERT：优化句子对相似性计算。
- 最新模型：OpenAI的text-embedding-3、Cohere的Embed、BGE（BAAI通用嵌入）。

2. 多模态Embedding模型

CLIP（OpenAI）：对齐图像和文本的共享向量空间。
ResNet/ViT：纯视觉模型的图像嵌入。

3. 领域专用模型

BioBERT：生物医学文本嵌入。
CodeBERT：代码语义嵌入。

三、Embedding模型的核心技术

1. 训练方法

自监督学习：
- 对比学习（如SimCLR）：拉近正样本对（相似数据），推开负样本对。
- 掩码语言建模（如BERT）：预测被遮蔽的单词。
监督微调：在特定任务（如问答、分类）上微调嵌入模型。

2. 损失函数

对比损失（Contrastive Loss）：最小化正样本对距离，最大化负样本对距离。
Triplet Loss：锚样本与正样本的距离应小于锚样本与负样本的距离加边际。
余弦相似度损失：直接优化嵌入向量的余弦相似度。

3. 向量归一化

对输出向量做L2归一化，使相似度计算仅依赖向量角度（余弦相似度）。

四、实现步骤（以文本Embedding为例）

1. 使用预训练模型（推荐）

from sentence_transformers import SentenceTransformer# 加载模型（如BGE中文模型）
model = SentenceTransformer('BAAI/bge-small-zh')# 生成Embedding
sentences = ["深度学习模型", "神经网络"]
embeddings = model.encode(sentences, normalize_embeddings=True)print(embeddings.shape)  # 输出：(2, 384)

2. 自定义训练（需数据）

import torch
from transformers import AutoModel, AutoTokenizer# 定义对比学习模型
class MyEmbeddingModel(torch.nn.Module):def __init__(self, model_name="bert-base-uncased"):super().__init__()self.bert = AutoModel.from_pretrained(model_name)self.head = torch.nn.Linear(768, 256)  # 降维def forward(self, input_ids, attention_mask):outputs = self.bert(input_ids, attention_mask=attention_mask)embeddings = self.head(outputs.last_hidden_state[:, 0])  # 取[CLS]向量return torch.nn.functional.normalize(embeddings, p=2, dim=1)# 训练代码略（需准备正负样本对）

五、应用场景

语义搜索：
- 将查询和文档向量化，用余弦相似度排序结果。
推荐系统：
- 用户历史行为向量与内容向量匹配（如新闻推荐）。
聚类与分类：
- 对嵌入向量进行K-Means聚类或SVM分类。
大模型增强：
- RAG（检索增强生成）：用向量检索相关知识输入LLM。
异常检测：
- 低相似度向量视为异常（如欺诈交易识别）。

六、优化技巧

数据预处理：
- 文本清洗（去停用词、标准化）、长文本分块。
模型选择：
- 英文：text-embedding-3-large（OpenAI）、all-mpnet-base-v2（Sentence-BERT）。
- 中文：bge-base-zh、m3e-base。
混合检索：
- 结合向量搜索与关键词搜索（BM25）提升召回率。
量化与压缩：
- 将FP32向量转为INT8，减少存储和计算开销。

七、评估指标

内在评估：
- 词类比任务（如“巴黎:法国 ≈ 东京:？”的准确率）。
- 语义相似度（与人工标注的Spearman相关系数）。
外在评估：
- 下游任务表现（如分类F1分数、检索命中率）。

八、挑战与解决方案

挑战	解决方案
领域迁移能力差	在领域数据上继续预训练或微调（Domain Adaptation）
多语言支持不足	使用多语言模型（如paraphrase-multilingual-MiniLM）
长文本语义丢失	分块嵌入后融合（如Max-Pooling）或使用长文本模型（Longformer）
计算资源消耗大	蒸馏小模型（如TinyBERT）、量化推理