BRIDGE

github2026-02-13 更新2026-02-17 收录

下载链接：

https://github.com/DISL-Lab/BRIDGE-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

BRIDGE是一个经过优化的信息检索（IR）基准，旨在解决现有评估数据集中缺失相关块（holes）的关键问题。通过应用新颖的DREAM（基于辩论的多智能体相关性评估）框架，BRIDGE提供了更完整和可靠的基础事实。

BRIDGE is an optimized information retrieval (IR) benchmark designed to address the critical issue of missing relevant passages (holes) in existing evaluation datasets. By applying the novel DREAM (Debate-based Multi-agent Relevance Assessment) framework, BRIDGE provides a more complete and reliable ground truth.

创建时间：

2026-01-27

原始信息汇总

BRIDGE 数据集概述

数据集基本信息

数据集名称：BRIDGE (A Reliable Information Retrieval Benchmark with Complete Annotations)
发布机构/实验室：DISL-Lab
相关论文：Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevance Assessment for IR Benchmarks (ICLR 2026)
论文链接：https://arxiv.org/abs/2602.06526
数据集托管地址：https://huggingface.co/datasets/DISLab/BRIDGE
代码仓库地址：https://github.com/DISL-Lab/BRIDGE-Benchmark
许可证：CC BY 4.0

数据集目标与核心贡献

BRIDGE 是一个精炼的信息检索基准测试，旨在解决现有评估数据集中相关文本块缺失的关键问题。通过应用新颖的 DREAM 框架，该数据集提供了更完整、更可靠的真实相关性标注。

主要成就

在7个基准测试子集中识别出 29,824 个缺失的相关文本块。
相较于最初标注的 6,976 个黄金文本块，实现了 428% 的增长。
在仅 3.5% 人工参与的情况下，保持了 95.2% 的标注准确率。
实现了更公平的检索系统比较和更一致的 RAG 评估。

数据集构成与统计

BRIDGE 对现有基准测试数据集的七个测试子集提供了精炼的标注，显著提高了每个查询的相关文档密度。

数据集	来源	领域	语料库大小	查询数量	平均相关块/查询 (原始)	平均相关块/查询 (BRIDGE)
MS MARCO	BEIR(MS MARCO)	网络搜索	8.8M	550	1.05	16.77
NQ	BEIR(NQ)	网络搜索	2.6M	550	1.20	7.04
Lifestyle	RobustQA(LoTTE)	烹饪、体育、旅行	119K	550	2.30	6.61
Recreation	RobustQA(LoTTE)	游戏、动漫、电影	166K	550	2.30	4.63
Science	RobustQA(LoTTE)	数学、物理、生物	1.0M	357	1.90	16.09
Technology	RobustQA(LoTTE)	Apple、Android、安全	638K	550	2.20	10.92
Writing	RobustQA(LoTTE)	英语	199K	550	2.20	8.52

数据来源与依赖

BRIDGE 的构建基于以下现有数据集，用户需自行下载原始语料库：

BEIR 中的 MS MARCO 和 NQ 数据集。
- BEIR GitHub: https://github.com/beir-cellar/beir
- MS MARCO 下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/msmarco.zip
- NQ 下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/nq.zip
RobustQA (LoTTE) 中的 Lifestyle, Recreation, Science, Technology, Writing 数据集。
- RobustQA GitHub: https://github.com/awslabs/robustqa-acl23
- LoTTE 数据下载链接: https://downloads.cs.stanford.edu/nlp/data/colbert/colbertv2/lotte.tar.gz

使用方法

数据准备

按照上述链接下载并预处理源语料库文件（corpus.jsonl 或 documents.jsonl）。
通过运行 python datasets/qrels/get_data.py 下载 BRIDGE 的精炼相关性标注、查询ID和答案。

评估检索系统

使用提供的基线检索系统（如 bm25, ance, splade, arctic, tct_colbert）进行评估。
支持评估用户自定义的检索系统。
支持评估 RAG 系统，包括生成和评估步骤。

主要实验结果

检索性能提升

使用 BRIDGE 填补标注缺失后，系统排名发生显著变化，检索性能与下游生成任务更趋一致。

检索-生成一致性

BRIDGE 显著提高了 RAG 评估的可靠性：

RAGAlign@10 指标：从使用 BRIDGE 前的 0.70 提升至使用后的 0.84，提高了 +0.14。

许可证说明

BRIDGE 项目本身采用 CC BY 4.0 许可证。
源数据集许可证：
- MS MARCO: CC BY 4.0 (https://github.com/microsoft/msmarco/blob/master/LICENSE)
- Natural Questions (NQ): Apache License 2.0 (https://github.com/google-research-datasets/natural-questions/blob/master/LICENSE)
- LoTTE (RobustQA subsets): 未指定特定许可证，请参阅 RobustQA 仓库声明。

搜集汇总

数据集介绍

构建方式

在信息检索领域，现有评估数据集常因标注不完整而影响系统比较的公正性。BRIDGE数据集通过创新的DREAM框架，即基于多智能体辩论的相关性评估方法，系统性地识别并填补了原始标注中的缺失相关片段。该框架以高度自动化的方式运作，仅需少量人工介入，便能在七个基准子集中挖掘出近三万条先前遗漏的相关文本块，显著提升了标注的完整性与可靠性。

使用方法

使用BRIDGE数据集需先准备原始语料库，包括从BEIR获取的MS MARCO和NQ数据，以及从RobustQA获取的LoTTE系列数据。随后，通过提供的脚本下载BRIDGE精炼后的相关性标注、查询ID与答案。评估时，用户可利用内置脚本对标准检索器或RAG系统进行测试，通过指定检索器名称、数据集及返回结果数量等参数，即可自动完成检索与评估流程，并获得与下游生成任务更对齐的性能指标。

背景与挑战

背景概述

信息检索领域长期面临评估基准标注不完整的挑战，这导致系统性能的公平比较存在偏差。BRIDGE数据集由KAIST的DISL实验室于2026年提出，旨在通过创新的多智能体辩论框架DREAM，为现有基准填补缺失的相关文本块，从而构建一个标注更完整、更可靠的信息检索评估基准。该数据集基于MS MARCO、NQ及LoTTE等多个知名基准的子集，通过自动化方法大幅扩充了相关文档的标注密度，显著提升了检索系统评估的准确性与下游任务的对齐度，对推动信息检索与检索增强生成技术的可靠评测具有重要影响。

当前挑战

BRIDGE数据集致力于解决信息检索评估中因标注缺失导致的系统排名失真这一核心挑战。传统基准常因人工标注成本高昂而存在大量相关文本块未被识别的问题，使得检索模型的性能评估不够全面与公平。在构建过程中，研究团队需应对大规模文本中精准识别遗漏相关性的技术难题，并确保自动化标注框架在高效扩展的同时维持高准确率。此外，整合多源异构数据集并保证其法律与伦理合规性，亦是该基准建设过程中的关键考量。

常用场景

经典使用场景

在信息检索领域，评估基准的完整性直接影响模型性能的公正比较。BRIDGE数据集通过其创新的DREAM框架，为多个经典检索测试子集提供了经过精细补充的相关性标注，从而成为评估检索系统召回能力与排序准确性的核心工具。研究者通常利用该数据集，在统一的实验环境下对比不同检索模型（如BM25、ANCE、SPLADE等）在补充标注后的性能表现，尤其关注其在识别传统数据集中遗漏的相关文档片段方面的有效性。

解决学术问题

传统信息检索评估数据集普遍存在标注不完整的问题，即存在大量未被标记的相关文本片段（缺失相关块），这导致模型评估结果存在偏差，无法真实反映检索系统的能力。BRIDGE数据集系统性地识别并填补了这些标注空白，在七个基准子集中新增了数万个相关块，显著提升了评估的完备性与可靠性。此举解决了检索领域长期存在的评估信度难题，为公平比较不同算法提供了坚实的数据基础，并增强了检索结果与下游生成任务之间的评价一致性。

实际应用

在实际应用层面，BRIDGE数据集为构建更可靠的检索增强生成系统提供了关键的评估标准。开发人员可以依据其提供的完整相关性标注，对RAG管道中的检索模块进行精准调优，确保系统能够从海量文档中高效定位所有相关信息。这不仅提升了问答系统、智能客服和知识库检索等应用的信息覆盖度与答案准确性，也为工业界评估和部署高性能检索模型提供了经过严格验证的测试基准。

数据集最近研究