BeIR/beir-corpus

Name: BeIR/beir-corpus
Creator: BeIR
Published: 2022-10-21 15:30:07
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/beir-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR Benchmark是一个异构的基准数据集，由18个不同的数据集组成，涵盖了9种信息检索任务，包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引文预测、推文检索和实体检索。所有数据集均为英文，并且已经过预处理，可以直接用于实验。数据集的结构包括corpus、queries和qrels三个部分，分别存储文档、查询和查询与文档的相关性判断。

The BEIR Benchmark is a heterogeneous benchmark dataset composed of 18 distinct datasets, covering 9 information retrieval tasks including fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. All datasets are in English and have been preprocessed, enabling direct use for experiments. The dataset structure includes three parts: corpus, queries, and qrels, which respectively store documents, queries, and relevance judgments between queries and documents.

提供机构：

BeIR

原始信息汇总

数据集概述

数据集名称: BEIR Benchmark

数据集简介: BEIR是一个异构基准，由18个不同的数据集组成，代表了9种信息检索任务。这些数据集包括事实检查、问答、生物医学信息检索、新闻检索等多个领域。

语言: 英语 (en)

许可证: cc-by-sa-4.0

多语言性: 单语种

数据集大小:

MSMARCO: 1M<n<10M
TREC-COVID: 100k<n<1M
NFCorpus: 1K<n<10K
NQ: 1M<n<10M
HotpotQA: 1M<n<10M
FiQA: 10K<n<100K
ArguAna: 1K<n<10K
Touche-2020: 100K<n<1M
CQADupstack: 100K<n<1M
Quora: 100K<n<1M
DBpedia: 1M<n<10M
SciDocs: 10K<n<100K
FEVER: 1M<n<10M
Climate-FEVER: 1M<n<10M
SciFact: 1K<n<10K

任务类别:

文本检索
零样本检索
信息检索
零样本信息检索

任务ID:

段落检索
实体链接检索
事实检查检索
推文检索
引用预测检索
重复问题检索
论证检索
新闻检索
生物医学信息检索
问答检索

数据集结构

数据实例格式:

Corpus: .jsonl 文件，包含文档ID、标题和文本。
Queries: .jsonl 文件，包含查询ID和文本。
Qrels: .tsv 文件，包含查询ID、文档ID和评分。

数据字段:

Corpus: 文档ID、标题、文本
Queries: 查询ID、文本
Qrels: 查询ID、文档ID、评分

数据集创建

许可证信息: cc-by-sa-4.0

引用信息:

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献者: @Nthakur20

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建一个全面且多样化的评估基准对于推动模型发展至关重要。BEIR数据集通过整合18个异构数据集，覆盖了事实核查、问答系统、生物医学检索等九大任务类别，形成了一个统一的评估框架。其构建过程涉及对原始数据的精心筛选与标准化处理，确保每个子集均包含结构化的语料库、查询文本及相关性标注文件，采用JSON Lines和TSV格式进行组织，以支持高效的数据加载与处理。

使用方法

使用BEIR数据集时，研究者可通过其提供的标准化接口加载特定子集，每个子集均包含语料库、查询及相关性标注三部分。典型流程包括：首先加载语料库文档与查询文本，随后基于相关性标注文件评估检索模型的性能，常用指标如nDCG@10或Recall@k。数据集支持零样本设置，允许模型在未经任务特定训练的情况下直接进行检索，为跨领域泛化能力的研究提供了理想平台。

背景与挑战

背景概述

BEIR基准数据集由德国达姆施塔特工业大学UKP实验室于2021年构建，旨在解决信息检索领域零样本评估的标准化难题。该数据集汇聚了18个异构子集，涵盖事实核查、问答系统、生物医学检索等九大任务类型，其核心研究目标在于为检索模型提供跨领域的统一评估框架。通过整合多源数据集并统一预处理流程，BEIR显著推动了检索模型泛化能力的研究，成为衡量模型在未见领域表现的重要标尺。

当前挑战

BEIR数据集面临的挑战主要体现在两方面：在领域问题层面，其需应对异构任务间数据分布差异导致的模型泛化困境，例如生物医学文本与社交媒体语料的语言特性迥异；在构建过程中，挑战源于多源数据的标准化整合，包括原始数据集格式不统一、标注质量参差、以及规模跨度从千级到千万级文档带来的预处理复杂性。这些因素共同考验着基准的鲁棒性与评估的公平性。

常用场景

经典使用场景

在信息检索领域，BEIR基准作为异构评估框架，其经典使用场景在于对检索模型进行零样本泛化能力的系统性评测。该框架整合了涵盖事实核查、问答系统、生物医学检索等九大任务的十八个数据集，研究者通过统一接口加载数据，能够便捷地评估模型在未见领域上的表现，从而推动跨领域检索技术的发展。

解决学术问题

BEIR基准有效解决了信息检索研究中模型泛化能力评估标准缺失的学术问题。传统检索模型常在单一数据集上优化，难以衡量其真实泛化性能；该基准通过引入多领域、多任务的异构数据集，为模型提供了严格的零样本评估环境，促进了检索模型从过拟合特定数据向具备强泛化能力的方向演进，对推动检索技术的普适性研究具有深远意义。

实际应用

在实际应用中，BEIR基准为构建鲁棒的商业检索系统提供了关键验证工具。例如，在搜索引擎、智能客服和学术文献推荐等场景中，开发者可利用该基准评估检索模型在不同领域（如医疗、金融、新闻）的适应性，确保系统在面对多样化的用户查询时仍能保持高精度与高召回，从而提升用户体验并降低领域迁移的部署成本。

数据集最近研究