BeIR/msmarco-qrels

Name: BeIR/msmarco-qrels
Creator: BeIR
Published: 2022-10-23 06:05:55
License: 暂无描述

Hugging Face2022-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/msmarco-qrels

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR是一个异构的基准测试集，由18个不同的数据集组成，涵盖了9种信息检索任务，包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件，分别用于存储文档、查询和查询与文档的相关性判断。这些数据集已经过预处理，可以直接用于实验。

BEIR is a heterogeneous benchmark dataset composed of 18 distinct datasets, covering 9 information retrieval tasks including fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. All tasks are in English. The dataset structure includes corpus, queries and qrels files, which are respectively used to store documents, queries, and relevance judgments between queries and documents. These datasets have been preprocessed and can be directly used for experiments.

提供机构：

BeIR

原始信息汇总

数据集概述

名称: BEIR Benchmark

描述: BEIR是一个异构基准，包含18个不同数据集，代表9种信息检索任务。

语言: 英语 (en)

许可证: CC-BY-SA-4.0

多语言性: 单语

任务类别:

文本检索
零样本检索
信息检索
零样本信息检索

任务ID:

段落检索
实体链接检索
事实检查检索
推文检索
引用预测检索
重复问题检索
论点检索
新闻检索
生物医学信息检索
问答检索

数据集结构

数据实例:

语料库: .jsonl 文件，包含文档ID、标题和文本。
查询: .jsonl 文件，包含查询ID和文本。
qrels: .tsv 文件，包含查询ID、文档ID和评分。

数据字段:

语料库: _id (文档ID), title (标题), text (文本)
查询: _id (查询ID), text (查询文本)
qrels: query-id (查询ID), corpus-id (文档ID), score (评分)

数据集创建

许可证信息: CC-BY-SA-4.0

引用信息:

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献者: @Nthakur20

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建一个全面且多样化的基准数据集对于评估模型性能至关重要。BEIR基准数据集通过整合18个异构数据集，覆盖了事实核查、问答系统、生物医学检索等九大任务领域。其构建过程涉及对原始数据的精心预处理与标准化，确保每个子集均包含语料库、查询文本及相关性标注文件，并以统一的JSON Lines和TSV格式进行组织，从而为跨任务评估提供了结构化的数据基础。

特点

BEIR数据集以其异构性和广泛的任务覆盖而著称，囊括了从大规模网页文档到专业科学文本的多种数据源。该数据集不仅支持传统的监督学习评估，还专门为零样本检索场景设计，使研究者能够在未针对特定任务进行训练的情况下测试模型的泛化能力。其多任务架构与标准化的评估协议，为信息检索模型的综合性能比较提供了可靠且一致的框架。

使用方法

使用BEIR数据集时，研究者可通过其提供的统一接口加载任意子集，每个子集均包含语料库、查询和相关性标注。典型的工作流程包括：首先利用语料库构建文档索引，随后使用查询进行检索，最后通过相关性标注计算NDCG@10或MAP等标准指标以评估模型性能。数据集支持零样本设置，允许直接测试预训练模型在不同任务上的迁移能力，同时其模块化设计便于集成自定义检索算法或嵌入模型。

背景与挑战

背景概述

信息检索领域长期面临模型泛化能力不足的挑战，传统评估多局限于单一任务，难以全面衡量模型性能。BEIR基准由Nandan Thakur等研究人员于2021年构建，旨在为零样本信息检索提供异构评估框架。该基准整合了来自事实核查、问答系统、生物医学检索等九大任务的18个数据集，如MSMARCO、TREC-COVID和NQ等，通过统一格式促进跨领域模型比较。其诞生推动了检索模型从特定任务优化向通用能力发展的范式转变，成为评估检索系统鲁棒性与适应性的核心工具。

当前挑战

BEIR基准致力于解决零样本信息检索中的领域泛化难题，其核心挑战在于模型如何在不接触目标领域标注数据的情况下，依然保持高效的检索性能。数据构建过程中，研究者需协调多源异构数据集，包括处理不同标注标准、文本长度差异及领域专业术语归一化等问题。此外，数据集的规模与质量参差不齐，例如TREC-COVID包含密集相关性标注，而其他数据集可能标注稀疏，这要求基准设计时平衡评估的公平性与全面性。

常用场景

经典使用场景

在信息检索领域，BEIR基准作为异构评估框架，其经典使用场景在于对检索模型进行零样本泛化能力的系统性评测。该框架整合了涵盖事实核查、问答、生物医学检索等九大任务的十八个数据集，为研究者提供了一个统一且多样化的测试平台。通过标准化数据格式与评估流程，BEIR使得不同模型能够在跨领域、跨任务的复杂环境中接受严格检验，从而揭示模型在未见数据上的真实性能表现。

衍生相关工作

围绕BEIR基准，学术界衍生出一系列经典研究工作。例如，Contriever、ANCE等密集检索模型利用BEIR进行大规模零样本评估，推动了表示学习在检索任务中的进展。同时，SPLADE、ColBERT等稀疏与混合检索方法也在该基准上进行了性能验证与优化。这些工作不仅丰富了检索模型的技术谱系，也为后续的模型设计、训练策略及评估标准提供了重要参考。

数据集最近研究