智源联合多家机构推出自动化多样性信息检索评测基准AIR-Bench

图片

智源研究院联合Jina AI、Zilliz、HuggingFace、中国科技大学、中国人民大学、北京邮电大学等多家机构联合推出专门针对检索任务和RAG场景的评测AIR-Bench。AIR-Bench首次提出在检索评测任务中使用LLMs生产评估数据,避免模型过拟合测试数据。同时,由于使用合成数据进行评估,AIR-Bench不需要人工参与标注数据,可以更灵活的覆盖更多的垂直领域和不同语种。在实验中,AIR-Bench生成的数据与人工标注的数据表现出较好的一致性,证明了使用生成数据进行评测的可靠性。

Github:https://github.com/AIR-Bench/AIR-Bench

HuggingFace Leaderboard:https://huggingface.co/spaces/AIR-Bench/leaderboard

背景介绍

评测基准对于信息检索模型的发展十分重要。近年来,社区内已经出现了一系列具有里程碑意义的工作,如开放领域问答数据集 MS MARCO[1]、NQ[2],多语言检索数据集 MIRACL[3],通用领域检索数据集 BEIR[4]、MTEB[5]。然而,这些已有的评测基准存在两个问题

1. 测不准

模型存在过拟合评测基准的风险,评测基准无法提供准确的结果。目前已有的评测基准的最初设计目的是为了评估模型的泛化性。由于他们都采用了公开数据集合,所以相关数据集的训练集、评测集都是公开可见的。同时SOTA模型为了提高泛化性能力,普遍使用全网的公开数据集进行训练,所以很难避免发生现有评测基准的测试数据被混入训练数据的情况,导致评测基准的结果不准确。

2. 测不全

评测基准无法覆盖实际应用的领域,为实际应用领域提供的参考价值有限。现有的评测基准都是基于已有的人工标注公开数据集。由于人工评测的成本高,所以公开的人工数据集覆盖的领域有限,而且很少更新,无法及时覆盖不同的领域和语言。另一方面,随着大模型技术的普及,AI检索模型被应用到越来越多的领域,现有的评测基准无法覆盖用户对于AI技术日益广泛的评测需求。

AIR-Bench的亮点

1. 自动化

AIR-Bench的测试数据主要使用大语言模型(Large Language Model,LLM)进行自动化生产。只需要提供新的语料数据,AIR-Bench便可以迅速扩展为新领域提供评测结果。这种方式同时可以大大减少测试数据出现在任何现有的模型训练数据中的可能性,避免出现模型过拟合评测基准的风险。

2. 专注检索和RAG

AIR-Bench专门针对检索任务进行设计,去除了包括分类、聚类、改写等任务,专注于开放领域问答、释义检索这类检索任务。此外,AIR-Bench 首次包含长文档内检索的场景。在长文档内检索任务中,模型需要从长文档的若干片段中检索出包含了回答输入问题所需关键信息的片段。这与检索增强生成(Retrieval Augmented Generation,RAG)场景下的检索任务密切相关,更能体现模型在RAG场景中的性能。

3. 多样性和动态性

AIR-Bench的测试数据基于真实世界中的多领域和多语言语料库进行生产,从而保证测试数据的多样性。同时,AIR-Bench会定期进行更新,从而满足社区不断变化的评测需求。

AIR-Bench的数据生产和可靠性验证

AIR-Bench使用真实世界的语料库进行数据生产。语料库不需要人工标注,可以是传统检索场景下的大规模语料库,也可以是长文档内检索中的长文档片段。基于语料库随机选出若干文档作为正例,设计复杂的提示词让 LLM 为每个正例生产一条多样化的查询,并生产一些语义相近但是和查询不相关的负例,从而提高任务的难度。最后,AIR-Bench使用向量模型、排序模型和LLM对生成的测试数据进行的质量控制,保证生成数据的质量符合人类偏好。

为了验证AIR-Bench方法的可靠性,我们在相同的语料数据上,对比17个主流模型在使用AIR-Bench生成数据和人工标注数据上的排名顺序。在MS MARCO的DEV数据集上,我们验证AIR-Bench生成数据和人类专家标注数据有较好的一致性(Spearman 相关性系数为 0.8211,p_value=5e-5,详细结果参见附表1)

AIR-Bench 数据集概览

目前,AIR-Bench发布了首个版本24.04,覆盖8个领域和中、英两种语言,总计27个数据集,未来,AIR-Bench将在社区核心贡献者的推动下覆盖更多领域、语言,并不断刷新已存在的测试任务。

图片

AIR-Bench 测试结果

我们在 AIR-Bench 上对部分模型进行了测试,包括传统的稀疏检索方法 BM25[6],开源社区较为流行的向量模型 bge-m3[7]、jina-embeddings-v2-base-en[8]、multilingual-e5-large[9]、e5-large-v2[10]、e5-mistral-7b-instruct[11],以及 OpenAI 的向量模型 text-embedding-3-large[12]、text-embedding-ada-002[13],还测试了“向量模型 + 排序模型”的结果,使用了 bge-reranker-v2-m3[14]、bge-reranker-large[15]、jina-reranker-v1-turbo-en[16]、bce-reranker-base_v1[17]。

在中英文问答任务上的排名结果如下(指标均为 NDCG@10):

图片

在长文本问答任务上的结果如下(指标均为 NDCG@10):

AIR-Bench 的可靠性

图片

附表 1

参考文献

[1] MS MARCO: A Human Generated MAchine Reading COmprehension Dataset, https://microsoft.github.io/msmarco/

[2] Natural questions: A Benchmark for Question Answering Research, https://ai.google.com/research/NaturalQuestions

[3] MIRACL: A Multilingual Retrieval Dataset Covering 18 Diverse Languages, https://github.com/project-miracl/miracl

[4] BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models, https://github.com/beir-cellar/beir

[5] MTEB: Massive Text Embedding Benchmark, https://github.com/embeddings-benchmark/mteb

[6] BM25, https://github.com/castorini/pyserini

[7] bge-m3, https://huggingface.co/BAAI/bge-m3

[8] jina-embeddings-v2-base-en, https://huggingface.co/jinaai/jina-embeddings-v2-base-en

[9] multilingual-e5-large, https://huggingface.co/intfloat/multilingual-e5-large

[10] e5-large-v2, https://huggingface.co/intfloat/e5-large-v2

[11] e5-mistral-7b-instruct, https://huggingface.co/intfloat/e5-mistral-7b-instruct

[12] OpenAI text-embedding-3-large, https://openai.com/blog/new-embedding-models-and-api-updates/

[13] OpenAI text-embedding-ada-002, https://openai.com/blog/new-and-improved-embedding-model/

[14] bge-reranker-v2-m3, https://huggingface.co/BAAI/bge-reranker-v2-m3

[15] bge-reranker-large, https://huggingface.co/BAAI/bge-reranker-large

[16] jina-reranker-v1-turbo-en, https://huggingface.co/jinaai/jina-reranker-v1-turbo-en

[17] bce-reranker-base_v1, https://huggingface.co/maidalun1020/bce-reranker-base_v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1429957.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【InternLM实战营第二期笔记】01:书生浦语大模型全链路开源体系+InternLM2技术报告

文章目录 课程笔记InternLM2 在数据处理上的进步2.0 版本的主要 features从模型到应用评测 InternLM2 技术报告 阅读笔记Infra训练框架:InternEvo模型架构 预训练数据文本代码长上下文 预训练设置Tokenization预训练超参数 预训练阶段 AlignmentCOOL RL长上下文微调…

Linux连接主机xshell,Linux vi编辑器使用教程

Linux连接主机xshell Linux vi编辑器使用教程 以下是Linux中vi编辑器的使用教程: 打开终端并输入vi命令,然后按回车键打开vi编辑器。 默认情况下,vi编辑器处于命令模式。在命令模式下,你可以执行一些编辑操作。例如&#xff1a…

从0开始学统计-t检验

1.什么是t检验? t检验是一种用于比较两个样本均值之间差异是否显著的统计方法。它通常用于以下几种情况: (1)单样本 t 检验:用于检验一个样本的平均值是否与一个已知的总体平均值(或者一个假设的总体平均…

SpringCache+redis实现缓存

SpringCacheredis实现缓存 介绍注解入门程序环境准备1). 数据库准备2). 导入基础工程3). 注入CacheManager4). 引导类上加EnableCachingCachePut注解1). 在save方法上加注解CachePut2). 测试 CacheEvict注解1). 在 delete 方法上加注解CacheEvict2). 测试3). 在 update 方法上加…

# 文件或目录损坏且无法读取 的解决方案

文件或目录损坏且无法读取 的解决方案 一、问题描述: windows 系统下,当对某一个文件或文件夹操作时,出现【文件或目录损坏且无法读取】,这时不管对其进行修改、删除、更改属性等操作,都不能正常进行,在 …

揭秘《庆余年算法番外篇》:范闲如何使用维吉尼亚密码解密二皇子密信

❤️❤️❤️ 欢迎来到我的博客。希望您能在这里找到既有价值又有趣的内容,和我一起探索、学习和成长。欢迎评论区畅所欲言、享受知识的乐趣! 推荐:数据分析螺丝钉的首页 格物致知 终身学习 期待您的关注 导航: LeetCode解锁100…

高斯过程学习笔记

目录 基础知识 例子 推荐 A Visual Exploration of Gaussian Processes (distill.pub) AB - Introduction to Gaussian Processes - Part I (bridg.land) 基础知识 高斯过程回归(Gaussian Process Regression) - 知乎 (zhihu.com) 高斯过程&#x…

Linux自动重启系统脚本测试工具

前言 脚本允许用户指定重启的次数和重启间隔时间,并自动生成相应的定时任务。通过使用这个脚本,系统管理员可以轻松地设置重启测试。每次重启操作都会被记录下来,以便用户随时了解测试情况。 一、脚本 #!/bin/bashif [ "$1" &qu…

CAD二次开发(4)-编辑图形

工具类:EditEntityTool.cs using Autodesk.AutoCAD.ApplicationServices; using Autodesk.AutoCAD.DatabaseServices; using Autodesk.AutoCAD.Geometry; using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Th…

20道经典自动化测试面试题

概述 觉得自动化测试很难? 是的,它确实不简单。但是学会它,工资高啊! 担心面试的时候被问到自动化测试? 嗯,你担心的没错!确实会被经常问到! 现在应聘软件测试工程师的岗位&…

神经网络不确定性综述(Part V)——Uncertainty measures and quality

相关链接: 神经网络不确定性综述(Part I)——A survey of uncertainty in deep neural networks-CSDN博客 神经网络不确定性综述(Part II)——Uncertainty estimation_Single deterministic methods-CSDN博客 神经网络不确定性综述(Part III)——Uncertainty est…

基于深度学习和去卷积的盲源分离方法在旋转机械上的应用

关键词:预测性维护、盲源分离、振动分析、传递函数移除、二阶循环平稳性、轴承监测、机器学习 振动是旋转机械中主要的故障指示器,它们主要来源于两个方面:一个是与齿轮相关的振动(主要源于齿轮啮合过程中的冲击和不平衡负载&…

图像处理案例01

案例01 例011.1 目标1.2 步骤1.3 代码 例01 1.1 目标 找出图形中的圆弧。 1.2 步骤 读入图像。彩色图转灰度图。图像处理。读灰度图阈值分割,得到img_thre,除掉图中的蓝色和绿色,只留下白色。对img_thre做水平梯度得到gx,这样…

算法:树状数组

文章目录 面试题 10.10. 数字流的秩327. 区间和的个数315. 计算右侧小于当前元素的个数 树状数组可以理解一种数的存储格式。 面试题 10.10. 数字流的秩 假设你正在读取一串整数。每隔一段时间,你希望能找出数字 x 的秩(小于或等于 x 的值的个数)。 请实现数据结构…

Python 静态网页信息爬取

在当今数字化时代,数据的价值不言而喻。对于研究人员、开发者和数据分析师来说,能够从互联网的海量信息中提取所需数据,无疑是一项宝贵的技能。Python,作为一种广泛使用的编程语言,提供了多种工具来实现这一目标&#…

Studio 3T 2024.3 (macOS, Linux, Windows) - MongoDB 的专业 GUI、IDE 和 客户端,支持自然语言查询

Studio 3T 2024.3 (macOS, Linux, Windows) - MongoDB 的专业 GUI、IDE 和 客户端,支持自然语言查询 The professional GUI, IDE and client for MongoDB 请访问原文链接:https://sysin.org/blog/studio-3t/,查看最新版。原创作品&#xff…

Autodesk 3DS Max v2025 解锁版安装教程 (3D 建模软件)

前言 Autodesk 3ds Max 是一款功能强大的 3D 建模和动画解决方案,游戏开发人员、视觉效果艺术家和平面设计师使用它来创建庞大的世界、令人惊叹的场景和引人入胜的虚拟现实 (VR) 体验。 Autodesk 3DS MAX是业界使用最广泛的3D建模和动画软件程序之一,它…

基于FPGA的VGA显示

文章目录 一、VGA介绍二.VGA显示字符三、VGA显示彩色条纹四、VGA显示彩色图片五、参考 一、VGA介绍 VGA(Video Graphics Array)视频图形阵列是IBM于1987年提出的一个使用模拟信号的电脑显示标准。VGA接口即电脑采用VGA标准输出数据的专用接口。VGA接口共…

21.Happens-Before原则

文章目录 Happens-Before原则1.Happens-Before规则介绍2.规格介绍2.1.顺序性规则(as-if-serial)2.2.volatile规则2.3.传递性规则2.4.监视锁规则2.5.start规则2.6.join()规则 Happens-Before原则 JVM内存屏障指令对Java开发工程师是透明的,是JMM对JVM实现的一种规范和…

基于MetaGPT构建LLM 订阅 Agent

前言 在上一篇文章中,我们学习了如何利用MetaGPT框架构建单智能体和多智能体,并通过一个技术文档撰写Agent和课后作业较为完整的理解一个Agent的需求分析和开发流程;但是技术要和应用结合才能得到更广泛的推广;在本文中&#xff0…
最新文章