当前位置: 首页 > news >正文

BGE:智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1. 背景与演进历程

BGE是由**北京智源人工智能研究院(BAAI)**主导研发的开源向量模型系列,旨在为文本、代码、图像等多模态数据提供统一的语义嵌入表示。其发展可分为三个阶段:

  • 文本嵌入阶段(2023)
    初始版本聚焦中英文文本向量化,登顶Hugging Face榜单,成为首个登顶该榜的中国模型,累计下载超6亿次。
  • 多语言扩展(2024)
    推出多语言版本(如BGE-M3),支持100+语言,在MTEB、MIRACL等基准刷新SOTA。
  • 多模态突破(2025)
    发布代码向量模型BGE-Code-v1、多模态模型BGE-VL-v1.5及视觉文档模型BGE-VL-Screenshot,解决代码与视觉检索瓶颈。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.TF-IDF:信息检索与文本挖掘的统计权重基石
  • 19.HumanEval:代码生成模型的“黄金标尺”
  • 18.稠密检索:基于神经嵌入的高效语义搜索范式
  • 17.Haystack:面向大模型应用的模块化检索增强生成(RAG)框架
  • 16.CodePlan:基于代码形式规划的大模型结构化推理新范式
  • 15.CodeGen:面向多轮程序合成的开源代码大语言模型
  • 14.束搜索(Beam Search):原理、演进与挑战
  • 13.RAGFoundry:面向检索增强生成的模块化增强框架
  • 12.TyDi QA:面向语言类型多样性的信息检索问答基准
  • 11.BBH详解:面向大模型的高阶推理评估基准与数据集分析
  • 10.RepoCoder:仓库级代码补全的迭代检索生成框架解析与应用前沿
  • 9.RAGAS:检索增强生成系统的无参考评估框架与技术解析
  • 8.Self-RAG:基于自我反思的检索增强生成框架技术解析
  • 7.DocBench:面向大模型文档阅读系统的评估基准与数据集分析
  • 6.哲学中的主体性:历史演进、理论范式与当代重构
  • 5.FLAN-T5:大规模指令微调的统一语言模型框架
  • 4.Do-Calculus:因果推断的演算基础与跨领域应用
  • 3.同质无向加权图:理论基础、算法演进与应用前沿
  • 2.大模型智能体(Agent)技术全景:架构演进、协作范式与应用前沿
  • 1.GraphRAG:基于知识图谱的检索增强生成技术解析
2. 核心模型与技术突破
2.1 文本嵌入:BGE-M3
  • 指令感知嵌入:在查询端注入任务指令(如“为以下问题查找相关文档”),提升多任务泛化性。
  • 三模态融合:支持稠密检索、稀疏检索与多向量交互,兼顾效率与精度。
  • 性能:MTEB基准平均得分64.8,超越OpenAI text-embedding-3-large(63.5)。
2.2 代码向量:BGE-Code-v1
  • 架构:基于Qwen2.5-Coder-1.5B,采用课程学习策略,融合代码-文本合成数据与多语言语义数据。
  • 创新
    • 代码拓扑解析:保留函数依赖与上下文结构;
    • 跨语言对齐:支持14种编程语言与自然语言的混合检索。
  • 性能:在CoIR(覆盖14种语言)、CodeRAG-Bench基准全面领先谷歌、Salesforce等模型。
2.3 多模态向量:BGE-VL-v1.5
  • 架构:以LLaVA-1.6(7.5B参数)为基座,集成400万图文对齐数据。
  • 关键技术
    • 双向注意力机制:捕捉图文模态关联;
    • 层次化特征融合:整合局部与全局语义。
  • 性能
    • Zero-shot版BGE-VL-v1.5-zs登顶MMEB zero-shot榜单;
    • 微调版BGE-VL-v1.5-MMEB在检索任务得分72.16(SOTA)。
2.4 视觉文档向量:BGE-VL-Screenshot
  • 问题定义:解决“可视化信息检索(Vis-IR)”任务(如网页/文档截图中的图文混合理解)。
  • 训练数据:1300万截图 + 700万截图问答样本,覆盖新闻、论文、商品等七类场景。
  • 评估基准:团队推出MVRB基准(4任务20数据集),模型以60.61综合分刷新SOTA。
3. 性能对比与权威验证

表1:BGE模型在核心基准的表现

模型基准得分超越对手
BGE-Code-v1CodeRAG-BenchSOTAGoogle, Voyage AI, Jina
BGE-VL-v1.5-MMEBMMEB-Retrieval72.16CLIP-ViT, OpenAI Embeddings
BGE-VL-ScreenshotMVRB60.61多模态基线模型30%↑
BGE-M3MTEB64.8OpenAI text-embedding-3-large

数据来源:智源官方论文及基准榜单

4. 应用场景与开源生态
4.1 典型应用
  • RAG系统:为LLM提供精准代码/文档检索(如GitHub Copilot增强);
  • 多模态搜索:电商平台图文混合检索(如“红色连衣裙+蕾丝细节”);
  • 工业编程:百万行级代码库的语义搜索与补全。
4.2 开源资源
# 模型与代码库
- BGE-Code-v1:• 模型地址: https://huggingface.co/BAAI/bge-code-v1• 训练代码: https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
- BGE-VL-Screenshot:• 基准榜单: https://huggingface.co/spaces/BAAI/MVRB_leaderboard
5. 与同名技术的区分

需区分两类同名“BGE”:

  • 智源BGE:面向语义嵌入的向量模型家族(本文核心);
  • 阿里BGE(2018):图嵌入算法(Billion-scale Commodity Embedding),用于电商推荐;
  • 字节BGE(2024):图数据库ByteGraph的执行引擎(非嵌入模型)。

核心论文

  1. BGE-Code-v1
    BAAI. (2025).
    BGE-Code-v1: A Unified Code-Text Embedding Model for 14 Programming Languages.
    arXiv preprint arXiv:2505.12697.
    → 论文地址: https://arxiv.org/abs/2505.12697

💎 总结

BGE系列通过模块化设计多模态扩展,定义了语义嵌入新范式:

  1. 技术突破
    • 代码向量模型解决程序语义鸿沟(BGE-Code-v1);
    • 多模态模型统一图文表示(BGE-VL-v1.5);
    • 视觉文档模型攻克复杂结构理解(BGE-VL-Screenshot)。
  2. 开源引领:6亿次下载、全面开放模型权重,推动RAG技术民主化。
  3. 持续演进:从文本到多模态,BGE正构建“万物可嵌入”的通用语义基础设施 🌐。

随着AGI对复杂知识的处理需求增长,BGE的结构化语义表示高效检索能力将成为大模型落地核心引擎 🔧。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.xdnf.cn/news/1290961.html

相关文章:

  • 开源WAF新标杆:雷池SafeLine用语义分析重构网站安全边界
  • 【C#】利用数组实现大数数据结构
  • 银发经济时代:科技赋能养老,温情守护晚年,让老人不再孤独无助
  • LeetCode 面试经典 150_数组/字符串_整数转罗马数字(18_12_C++_中等)(模拟)(对各位进行拆解)
  • STM32HAL 快速入门(六):GPIO 输入之按键控制 LED
  • JMeter 测试 WebSocket 接口的详细教程
  • HarmonyOS NDK的JavaScript/TypeScript与C++交互机制
  • 实战多屏Wallpaper壁纸显示及出现黑屏问题bug分析-学员作业
  • 从0开始配置conda环境并在PyCharm中使用
  • 基于Apache Flink的实时数据处理架构设计与高可用性实战经验分享
  • Flink中的窗口
  • 解决程序连不上RabbitMQ:Attempting to connect to/access to vhost虚拟主机挂了的排错与恢复
  • Windows也能用!Claude Code硬核指南
  • 【报错解决】Conda - Downloaded bytes did not match Content-Length
  • Java零基础笔记16(Java编程核心:存储读写数据方案—File文件操作、IO流、IO框架)
  • 搜索引擎核心机制解析
  • 5.0.9.1 C# wpf通过WindowsFormsHost嵌入windows media player(AxInterop.WMPLib)
  • C# WPF本地Deepseek部署
  • 集成电路学习:什么是CV计算机视觉
  • IPA1299至为芯替代TI ADS1299的脑机接口芯片
  • 网络安全合规6--服务器安全检测和防御技术
  • 高级IO(五种IO模型介绍)
  • Spring、Spring MVC、Spring Boot与Spring Cloud的扩展点全面梳理
  • Spring Boot 集成 机器人指令中枢ROS2工业机械臂控制网关
  • 从“存得对”到“存得准”:MySQL 数据类型与约束全景指南
  • 算法题打卡力扣第11题:盛最多水的容器(mid)
  • 音视频处理新纪元:12款AI模型的语音转录和视频理解能力横评
  • 洛谷 P2607 [ZJOI2008] 骑士-提高+/省选-
  • 从钢板内部应力视角,重新认识护栏板矫平机
  • 猫头虎AI分享| 智谱开源了为 RL scaling 设计的 LLM post‑training 框架用于GLM-4.5强化学习训练:slime