BeIR/beir

Name: BeIR/beir
Creator: BeIR
Published: 2022-10-21 15:30:43
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/beir

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR Benchmark是一个异构的基准测试，包含了来自18个不同数据集的9种信息检索任务。这些任务包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。数据集支持零样本检索和信息检索任务，并且所有任务均为英文。数据集的结构包括语料库、查询和相关性判断文件，格式为JSONL和TSV文件。数据集的大小从1K到10M不等，具体取决于子数据集。

The BEIR Benchmark is a heterogeneous benchmark encompassing 9 information retrieval tasks sourced from 18 distinct datasets. These tasks include fact checking, question answering (QA), biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. The benchmark supports zero-shot retrieval and information retrieval tasks, and all tasks are conducted in English. Its structure consists of corpus, query, and relevance judgment files stored in JSONL and TSV formats. The size of the benchmark ranges from 1K to 10M, varying across its sub-datasets.

提供机构：

BeIR

原始信息汇总

数据集概述

名称: BEIR Benchmark

许可证: cc-by-sa-4.0

语言: 英语 (en)

多语言性: 单语

大小:

MSMARCO: 1M<n<10M
TREC-COVID: 100k<n<1M
NFCorpus: 1K<n<10K
NQ: 1M<n<10M
HotpotQA: 1M<n<10M
FiQA: 10K<n<100K
ArguAna: 1K<n<10K
Touche-2020: 100K<n<1M
CQADupstack: 100K<n<1M
Quora: 100K<n<1M
DBpedia: 1M<n<10M
SCIDOCS: 10K<n<100K
FEVER: 1M<n<10M
Climate-FEVER: 1M<n<10M
SciFact: 1K<n<10K

任务类别:

文本检索
零样本检索
信息检索
零样本信息检索

任务ID:

段落检索
实体链接检索
事实检查检索
推文检索
引用预测检索
重复问题检索
论证检索
新闻检索
生物医学信息检索
问答检索

数据集结构

数据实例:

语料库: .jsonl 文件，包含文档标题和段落文本。
查询: .jsonl 文件，包含查询标识和文本。
qrels: .tsv 文件，包含查询-文档的相关性评分。

数据字段:

语料库: _id (文档唯一标识), title (文档标题), text (文档文本)
查询: _id (查询唯一标识), text (查询文本)
qrels: query-id, corpus-id, score (相关性评分)

数据集创建

许可证信息: cc-by-sa-4.0

引用信息:

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

搜集汇总

数据集介绍

构建方式

BEIR基准是由18个不同领域的数据集构建而成的异构基准，涵盖了9种信息检索任务。这些数据集经过预处理，以支持实验的需求。构建过程中，每个数据集都被转换为统一的格式，包括文档集（corpus）、查询集（queries）和相关性判断集（qrels），确保了数据的一致性和可用性。

特点

BEIR数据集的特点在于其异构性和多样性，包含了多种信息检索任务的数据集，如事实核查、问题回答、生物医学信息检索等。此外，数据集以英文为主，提供了丰富的文档和查询实例，以及相关性评分，有助于模型训练和评估。数据集还支持 leaderboard，可以评估模型在不同任务上的表现。

使用方法

使用BEIR数据集时，用户可以根据不同的任务需求选择相应的数据集。数据集以.jsonl和.tsv格式存储，可以直接加载到程序中进行处理。用户需要遵循数据集的格式规范，确保文档、查询和相关性判断的一致性。此外，用户可以通过 leaderboard 来评估和比较模型的性能。

背景与挑战

背景概述

BEIR（Benchmark for Efficient and Incremental Retriever Evaluation）是一个异构基准，旨在为零样本信息检索模型的评估提供综合平台。该数据集由德国卡尔斯鲁厄理工学院（Karlsruhe Institute of Technology, KIT）的UKPLab于2021年创建，汇集了18个不同领域的数据集，涵盖了9项信息检索任务。主要研究人员包括Nandan Thakur、Nils Reimers、Andreas Rücklé、Abhishek Srivastava和Iryna Gurevych。BEIR的核心研究问题是提供一个统一的标准，用于评估模型在不同信息检索任务中的表现，特别是在零样本学习场景下的性能。该数据集对信息检索领域产生了显著影响，推动了相关研究的进展。

当前挑战

在构建过程中，BEIR面临的主要挑战包括：1）整合来自不同来源和具有不同特性的数据集，确保数据质量和一致性；2）设计适用于多种任务和评估指标的统一评估框架；3）处理数据集可能包含的个人和敏感信息，确保遵守隐私和数据保护法规；4）在零样本学习场景下，确保检索系统的有效性和准确性。这些挑战对于构建一个全面、可靠且具有广泛应用价值的信息检索基准至关重要。

常用场景

经典使用场景

BEIR作为一项异质性的信息检索基准，其经典使用场景在于为不同的信息检索任务提供统一的数据格式和评估标准。研究者可以利用BEIR中的多个数据集，如MSMARCO、TREC-COVID等，进行模型训练和性能评估，从而推动零样本信息检索技术的发展。

衍生相关工作

BEIR的构建激发了众多相关工作的衍生，包括针对特定任务的数据增强方法、模型泛化能力的提升策略以及针对不同领域信息检索任务的定制化模型设计等。这些工作进一步推动了信息检索领域的研究进展。

数据集最近研究