当前位置：首页 > news >正文

BGE：智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命

news 2025/8/14 6:48:15

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1. 背景与演进历程

BGE是由**北京智源人工智能研究院（BAAI）**主导研发的开源向量模型系列，旨在为文本、代码、图像等多模态数据提供统一的语义嵌入表示。其发展可分为三个阶段：

文本嵌入阶段（2023）：
初始版本聚焦中英文文本向量化，登顶Hugging Face榜单，成为首个登顶该榜的中国模型，累计下载超6亿次。
多语言扩展（2024）：
推出多语言版本（如BGE-M3），支持100+语言，在MTEB、MIRACL等基准刷新SOTA。
多模态突破（2025）：
发布代码向量模型BGE-Code-v1、多模态模型BGE-VL-v1.5及视觉文档模型BGE-VL-Screenshot，解决代码与视觉检索瓶颈。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.TF-IDF：信息检索与文本挖掘的统计权重基石
19.HumanEval：代码生成模型的“黄金标尺”
18.稠密检索：基于神经嵌入的高效语义搜索范式
17.Haystack：面向大模型应用的模块化检索增强生成（RAG）框架
16.CodePlan：基于代码形式规划的大模型结构化推理新范式
15.CodeGen：面向多轮程序合成的开源代码大语言模型
14.束搜索（Beam Search）：原理、演进与挑战
13.RAGFoundry：面向检索增强生成的模块化增强框架
12.TyDi QA：面向语言类型多样性的信息检索问答基准
11.BBH详解:面向大模型的高阶推理评估基准与数据集分析
10.RepoCoder：仓库级代码补全的迭代检索生成框架解析与应用前沿
9.RAGAS：检索增强生成系统的无参考评估框架与技术解析
8.Self-RAG：基于自我反思的检索增强生成框架技术解析
7.DocBench：面向大模型文档阅读系统的评估基准与数据集分析
6.哲学中的主体性：历史演进、理论范式与当代重构
5.FLAN-T5：大规模指令微调的统一语言模型框架
4.Do-Calculus：因果推断的演算基础与跨领域应用
3.同质无向加权图：理论基础、算法演进与应用前沿
2.大模型智能体(Agent)技术全景：架构演进、协作范式与应用前沿
1.GraphRAG：基于知识图谱的检索增强生成技术解析

2. 核心模型与技术突破

2.1 文本嵌入：BGE-M3

指令感知嵌入：在查询端注入任务指令（如“为以下问题查找相关文档”），提升多任务泛化性。
三模态融合：支持稠密检索、稀疏检索与多向量交互，兼顾效率与精度。
性能：MTEB基准平均得分64.8，超越OpenAI text-embedding-3-large（63.5）。

2.2 代码向量：BGE-Code-v1

架构：基于Qwen2.5-Coder-1.5B，采用课程学习策略，融合代码-文本合成数据与多语言语义数据。
创新：
- 代码拓扑解析：保留函数依赖与上下文结构；
- 跨语言对齐：支持14种编程语言与自然语言的混合检索。
性能：在CoIR（覆盖14种语言）、CodeRAG-Bench基准全面领先谷歌、Salesforce等模型。

2.3 多模态向量：BGE-VL-v1.5

架构：以LLaVA-1.6（7.5B参数）为基座，集成400万图文对齐数据。
关键技术：
- 双向注意力机制：捕捉图文模态关联；
- 层次化特征融合：整合局部与全局语义。
性能：
- Zero-shot版BGE-VL-v1.5-zs登顶MMEB zero-shot榜单；
- 微调版BGE-VL-v1.5-MMEB在检索任务得分72.16（SOTA）。

2.4 视觉文档向量：BGE-VL-Screenshot

问题定义：解决“可视化信息检索（Vis-IR）”任务（如网页/文档截图中的图文混合理解）。
训练数据：1300万截图 + 700万截图问答样本，覆盖新闻、论文、商品等七类场景。
评估基准：团队推出MVRB基准（4任务20数据集），模型以60.61综合分刷新SOTA。

3. 性能对比与权威验证

表1：BGE模型在核心基准的表现

模型	基准	得分	超越对手
BGE-Code-v1	CodeRAG-Bench	SOTA	Google, Voyage AI, Jina
BGE-VL-v1.5-MMEB	MMEB-Retrieval	72.16	CLIP-ViT, OpenAI Embeddings
BGE-VL-Screenshot	MVRB	60.61	多模态基线模型30%↑
BGE-M3	MTEB	64.8	OpenAI text-embedding-3-large

数据来源：智源官方论文及基准榜单

4. 应用场景与开源生态

4.1 典型应用

RAG系统：为LLM提供精准代码/文档检索（如GitHub Copilot增强）；
多模态搜索：电商平台图文混合检索（如“红色连衣裙+蕾丝细节”）；
工业编程：百万行级代码库的语义搜索与补全。

4.2 开源资源

# 模型与代码库
- BGE-Code-v1:• 模型地址: https://huggingface.co/BAAI/bge-code-v1• 训练代码: https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
- BGE-VL-Screenshot:• 基准榜单: https://huggingface.co/spaces/BAAI/MVRB_leaderboard

5. 与同名技术的区分

需区分两类同名“BGE”：

智源BGE：面向语义嵌入的向量模型家族（本文核心）；
阿里BGE（2018）：图嵌入算法（Billion-scale Commodity Embedding），用于电商推荐；
字节BGE（2024）：图数据库ByteGraph的执行引擎（非嵌入模型）。

核心论文

BGE-Code-v1
BAAI. (2025).
BGE-Code-v1: A Unified Code-Text Embedding Model for 14 Programming Languages.
arXiv preprint arXiv:2505.12697.
→ 论文地址: https://arxiv.org/abs/2505.12697

💎 总结

BGE系列通过模块化设计与多模态扩展，定义了语义嵌入新范式：

技术突破：
- 代码向量模型解决程序语义鸿沟（BGE-Code-v1）；
- 多模态模型统一图文表示（BGE-VL-v1.5）；
- 视觉文档模型攻克复杂结构理解（BGE-VL-Screenshot）。
开源引领：6亿次下载、全面开放模型权重，推动RAG技术民主化。
持续演进：从文本到多模态，BGE正构建“万物可嵌入”的通用语义基础设施 🌐。