CoverageBench

Name: CoverageBench
Creator: 约翰霍普金斯大学; 美国国家标准与技术研究院
Published: 2026-03-20 23:20:44
License: 暂无描述

arXiv2026-03-20 更新2026-03-24 收录

下载链接：

https://huggingface.co/datasets/hltcoe/coveragebench

下载链接

链接失效反馈

官方服务：

资源简介：

CoverageBench是由约翰霍普金斯大学等机构构建的综合性评估基准，旨在衡量检索算法在跨任务和跨领域场景中的信息覆盖能力。该数据集整合了7个来自TREC等权威评测任务的子集，包含334个主题查询及对应的相关性标注、信息单元（nuggets）标注和公开文档集合。数据通过人工标注与LLM辅助标注相结合的方式构建，特别针对检索增强生成（RAG）系统需求，设计了信息单元覆盖率的评估框架，适用于信息检索多样性、摘要生成等研究方向。

CoverageBench is a comprehensive evaluation benchmark constructed by Johns Hopkins University and other institutions, designed to measure the information coverage capability of retrieval algorithms across tasks and cross-domain scenarios. This dataset integrates 7 subsets sourced from authoritative evaluation tasks such as TREC, comprising 334 topic queries alongside their corresponding relevance annotations, information unit (nuggets) annotations, and public document collections. Constructed via a hybrid approach of manual annotation and LLM-assisted annotation, this benchmark is specifically tailored to the requirements of Retrieval-Augmented Generation (RAG) systems. It proposes an evaluation framework for information unit coverage, which is applicable to research fields including information retrieval diversity, summary generation and other relevant research directions.

提供机构：

约翰霍普金斯大学; 美国国家标准与技术研究院

创建时间：

2026-03-20

原始信息汇总

CoverageBench 数据集概述

数据集基本信息

名称: CoverageBench
描述: 一个用于评估即席检索系统中信息覆盖度的统一基准套件。其核心是衡量检索到的文档集合是否完整覆盖了满足信息需求所需的离散信息单元（信息块），这对于检索增强生成（RAG）尤为重要。
语言: 英语 (en)
许可证: Apache-2.0
主要任务类别: 文本检索
具体任务: 文档检索
标签: 检索， RAG，信息检索，评估，基准测试，信息块，覆盖度

数据集构成与规模

该基准包含来自 7 个数据集的 334 个主题，所有配置均仅包含测试集。

各配置详情

配置名称	主题数量	特征
cast2020	25	`topic_id` (string), `query` (string), `nuggets` (sequence of string)
fair_ranking_2022	50	`topic_id` (string), `query` (string), `nuggets` (sequence of string)
neuclir_2024	19	`topic_id` (string), `query` (string), `nuggets` (sequence of string)
rag_2024	56	`topic_id` (string), `query` (string), `nuggets` (sequence of string)
ragtime_2025	34	`topic_id` (string), `query` (string), `nuggets` (sequence of string)
crux_multinews	100	`topic_id` (string), `query` (string), `nuggets` (sequence of string)
crux_duc04	50	`topic_id` (string), `query` (string), `nuggets` (sequence of string)

各数据集资源详情

数据集	文档/段落数量	查询数量	平均每查询信息块数
CAsT 2020	38,429,852	25	6.1
Fair Ranking 2022	6,475,537	50	29.7
NeuCLIR 2024 Pilot	10,038,768	19	14.9
RAG 2024	113,520,750	56	13.9
RAGTIME 2025	4,000,380	34	15.6
CRUX-MultiNews	565,015	100	14.2
CRUX-DUC04	(与 MultiNews 共享)	50	7.8

基准组件

每个数据集提供以下组件：

主题: 从原始任务中提取（有时经过调整）的一组查询。
信息块/子主题: 全面回答应覆盖的离散信息单元，每个单元都链接到支持文档。
相关性标签: 信息块级别的相关性判断，支持相关性和覆盖度评估。
基线结果: 来自 6 种检索配置（BM25 和 Qwen3-8B，以及经过 Rank1-7B 和 Qwen3-Reranker-8B 重排）的排序列表。

文档集合访问方式

1. 通过直接网站下载

RAG 2024 (MS MARCO v2.1 分段文档):
- 下载地址: https://msmarco.z22.web.core.windows.net/msmarcoranking/msmarco_v2.1_doc_segmented.tar

2. 通过 ir_datasets 库访问

NeuCLIR 2024: ir_datasets.load("neuclir/1/multi")
- 文档: https://ir-datasets.com/neuclir#neuclir/1/multi
TREC Fair Ranking 2022: ir_datasets.load("trec-fair/2022")
- 文档: https://ir-datasets.com/trec-fair.html#trec-fair/2022
CAsT 2020: ir_datasets.load("trec-cast/v1")
- 文档: https://ir-datasets.com/trec-cast.html#trec-cast/v1

3. 通过 HuggingFace Datasets 库访问

CRUX-MultiNews: load_dataset("DylanJHJ/crux-mds-corpus", split="multi_news-test-docs")
CRUX-DUC04: load_dataset("DylanJHJ/crux-mds-corpus", split="duc04-test-docs")
RAGTIME 2025: load_dataset("trec-ragtime/ragtime1")

搜集汇总

数据集介绍

构建方式

在信息检索领域，传统评估指标如精确率和召回率虽能衡量文档相关性，却难以捕捉信息覆盖的广度。CoverageBench的构建巧妙利用了现有检索集合，通过系统化转换方法创建覆盖评估基准。该数据集整合了七个来源各异的子集，包括TREC NeuCLIR、RAG、Fair Ranking、CAsT、RAGTIME以及CRUX-MultiNews与CRUX-DUC04。对于缺乏信息单元标注的数据集，研究团队采用大型语言模型进行自动化增强，例如为Fair Ranking数据集依据人口统计属性派生信息块，并为CAsT数据集通过对话轮次构建子主题。这种构建策略不仅显著降低了从头创建覆盖标注的成本，还确保了基准在多个领域与任务间的广泛代表性。

特点

CoverageBench的核心特征在于其多维度的覆盖评估框架，超越了传统相关性度量的局限。数据集囊括了334个主题，每个主题均标注了离散的信息单元，即信息块，这些信息块代表了全面响应所应涵盖的核心内容。数据集的文档规模跨度极大，从56.5万段落到超过1.13亿个文本片段，涵盖了新闻、对话、多语言报告等多种体裁。其独特之处在于提供了信息块级别的相关性判断，使得评估能够从单个文档转向整个检索集合的集体信息覆盖度。此外，数据集还包含了基于BM25和Qwen3-8B的初始检索以及使用Rank1-7B和Qwen3-Reranker-8B的重排序基线结果，为覆盖导向的检索研究提供了坚实的比较基准。

使用方法

为推进覆盖感知的检索系统发展，CoverageBench提供了完整的使用生态。研究者可通过Hugging Face平台获取所有主题、信息块、相关性标签及基线排序结果。数据集支持使用经典的覆盖评估指标进行分析，例如α-nDCG和子主题召回率，这些指标能够量化检索结果在信息广度上的表现。在使用过程中，用户可基于提供的基线模型结果进行对比实验，或利用数据集附带的评估代码在新模型上计算覆盖指标。该基准特别适用于检索增强生成系统的评估，能够诊断检索阶段的信息缺失如何导致生成答案的不完整，从而为端到端系统优化提供关键洞察。

背景与挑战

背景概述

在信息检索领域，传统评估指标如nDCG和MAP主要关注文档相关性，却难以衡量检索结果对用户信息需求的全面覆盖程度。CoverageBench数据集由约翰斯·普金斯大学与美国国家标准与技术研究院的研究团队于2026年提出，旨在构建一个跨任务与跨领域的信息覆盖评估基准。该数据集整合了来自TREC NeuCLIR、RAG、Fair Ranking、CAsT、RAGTIME以及CRUX-MultiNews、CRUX-DUC04等七个现有集合，通过标注信息单元（即“信息块”）及其与文档的对应关系，为检索增强生成系统及其他需要全面信息获取的应用场景提供了统一的测试平台。其核心研究问题是评估检索算法在多样化信息需求下的覆盖能力，推动了信息检索从单一相关性向多维覆盖度的范式转变。

当前挑战

CoverageBench所解决的核心领域挑战在于传统检索评估指标无法有效度量信息覆盖的完整性，尤其在检索增强生成系统中，狭窄或冗余的检索结果会导致生成内容的不完整或偏差。构建过程中的主要挑战包括：首先，从现有数据集中提取信息覆盖评估所需的标注资源成本高昂，需要为每个主题人工识别信息块并建立块级相关性判断；其次，不同源数据集在结构、领域和任务目标上存在显著差异，需通过查询重写、信息块推导与相关性标注增强等方法进行统一化适配；此外，部分数据集缺乏信息块与文档的明确对齐，需依赖大语言模型进行自动化标注与验证，这对标注的准确性与一致性提出了较高要求。

常用场景

经典使用场景

在信息检索与检索增强生成领域，传统评估指标如nDCG和MAP主要关注文档相关性，却难以衡量检索结果对用户信息需求的覆盖广度。CoverageBench应运而生，为评估检索系统的信息覆盖度提供了统一测试平台。该数据集最经典的使用场景是作为基准工具，系统性地评估检索算法在多样化任务和领域中对离散信息单元的覆盖能力。研究者利用其标注的“信息块”集合，能够量化检索结果集是否全面涵盖了查询所涉及的所有重要方面，从而推动覆盖度感知检索模型的发展。

实际应用

该数据集的实际应用价值在检索增强生成系统中尤为凸显。当检索系统作为大语言模型的知识来源时，其检索结果的覆盖度直接决定了生成答案的全面性与公正性。CoverageBench通过整合来自TREC NeuCLIR、RAG、Fair Ranking等实际任务的语料，能够模拟真实场景中用户对深度、多面性信息的需求。开发者可利用该基准诊断检索环节的覆盖缺陷，优化系统以避免生成片面或带有偏见的回答，从而提升智能问答、报告生成和对话系统等应用的信息服务质量。

衍生相关工作

CoverageBench的构建方法论与评估思想，继承并融合了信息检索与自然语言处理领域多项经典工作的精髓。其核心的“信息块”评估概念可追溯至TREC QA赛道的答案事实评估以及DUC摘要评估中的金字塔方法。在检索多样化方面，它吸收了TREC Web多样性赛道和NTCIR IMINE任务中关于子主题覆盖与意图感知评估的丰富经验。同时，数据集直接衍生于并支持了如TREC NeuCLIR报告生成、RAG赛道等前沿评估任务，为Rank1、Qwen3等新型神经检索与重排序模型提供了覆盖度评估的标准环境，推动了覆盖度导向的检索算法研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集