coveragebench

Name: coveragebench
Creator: JHU Human Language Technology Center of Excellence
Published: 2026-02-11 02:55:51
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/hltcoe/coveragebench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集采用CC-BY-SA-4.0许可协议，包含一个训练集分割，共55个样本，总大小为3764字节。数据集包含两个字符串类型的字段：'2024-145979'和'what is vicarious trauma and how can it be coped with?'（何为替代性创伤及其应对方法）。README中未提供关于数据集背景、目的或具体应用场景的详细描述。

提供机构：

JHU Human Language Technology Center of Excellence

创建时间：

2026-02-06

搜集汇总

数据集介绍

构建方式

在信息检索领域，评估检索系统覆盖信息完整性的需求日益凸显。CoverageBench通过整合七个权威数据集构建而成，包括CAsT 2020、Fair Ranking 2022、NeuCLIR 2024、RAG 2024、RAGTIME 2025以及CRUX系列。每个数据集均经过精心处理，提取了查询主题、信息单元（nuggets）及关联文档，形成了统一的评估框架。构建过程中，研究者从原始任务中抽取或调整查询，并标注离散的信息单元，这些单元代表了满足信息需求所需的核心内容。最终，基准涵盖了334个主题，为覆盖性评估提供了扎实的数据基础。

特点

该数据集的核心特征在于其专注于信息覆盖度的多维评估，超越了传统相关性判断的局限。它提供了细粒度的信息单元标注，每个查询平均关联多个信息单元，例如Fair Ranking 2022中每个查询平均包含29.7个信息单元，能够深入衡量检索结果的完整性。数据集融合了不同规模和领域的文档集合，从百万级到千万级文档不等，确保了评估的广泛性和代表性。此外，基准还包含了多种基线检索结果，如BM25和基于大语言模型的检索配置，为比较研究提供了便利。

使用方法

使用CoverageBench时，研究者可通过多种途径访问文档集合。对于部分数据集，如RAG 2024，可直接从官方网站下载文档包；对于NeuCLIR 2024、Fair Ranking 2022和CAsT 2020，则推荐使用ir_datasets库进行加载，该库提供了标准化的接口。CRUX-MultiNews、CRUX-DUC04和RAGTIME 2025可通过HuggingFace的datasets库获取。评估时，用户可基于提供的信息单元和相关性标注，计算检索系统在覆盖度上的性能指标，从而系统分析信息完整性，尤其适用于检索增强生成等前沿应用的评估场景。

背景与挑战

背景概述

CoverageBench作为一套统一的信息覆盖度评估基准，诞生于检索增强生成技术蓬勃发展的时代背景之下。该数据集由研究团队整合了包括CAsT 2020、Fair Ranking 2022、NeuCLIR 2024、RAG 2024、RAGTIME 2025、CRUX-MultiNews及CRUX-DUC04在内的七个经典检索与多文档摘要数据集，共计334个查询主题，其核心研究问题聚焦于评估检索系统在信息覆盖完整性方面的性能。传统检索评估多关注单文档相关性，而CoverageBench则创新性地引入“信息块”概念，旨在衡量检索结果集是否全面涵盖了满足用户信息需求的所有关键离散信息单元。这一转向深刻回应了当前RAG系统对检索源完备性的严苛要求，因为检索覆盖的缺口会直接导致生成答案的不完整或偏差，从而为下一代检索系统的设计与优化提供了至关重要的评估基石。

当前挑战

CoverageBench所应对的核心领域挑战在于超越传统相关性评估，解决复杂信息需求下的覆盖完整性度量难题。这要求评估框架能够精准识别并量化分散在多个文档中的信息“块”，并判断检索集合对其的覆盖程度，其评估维度更为精细与复杂。在数据集构建过程中，挑战主要体现在多源异构数据的整合与标准化上。研究者需将来自不同领域、拥有各异数据格式与标注规范的七个独立数据集，统一转化为以查询、信息块及对应文档关联为核心的结构，并确保信息块标注的准确性与一致性。此外，为支撑覆盖度评估，需为每个查询构建包含大量文档的检索池并获取细粒度的相关性判断，其标注成本与工程复杂度构成了显著挑战。

常用场景

经典使用场景

在信息检索与检索增强生成领域，CoverageBench作为一个统一的评估基准，其经典使用场景在于系统性地衡量检索系统在信息覆盖度方面的性能。该数据集通过整合多个权威检索任务中的查询与信息单元，为研究者提供了评估检索结果是否全面涵盖用户信息需求的标准化框架。具体而言，它支持对检索系统返回的文档集合进行覆盖度分析，判断其是否包含了所有关键的信息片段，从而超越了传统相关性评估的局限，为深度理解检索质量提供了重要工具。

衍生相关工作

围绕CoverageBench，已衍生出一系列聚焦于覆盖度评估与优化的经典研究工作。这些工作通常致力于开发新的覆盖度度量指标，或设计能够主动提升信息覆盖的检索与重排序算法。例如，部分研究利用该数据集的标注信息，训练模型以识别并优先检索高信息量的文档片段。同时，该基准也促进了跨数据集评估方法的比较，推动了信息检索领域向更细致、更以用户需求为中心的评估体系发展。

数据集最近研究