BeIR/trec-covid

Name: BeIR/trec-covid
Creator: BeIR
Published: 2022-10-23 06:00:45
License: 暂无描述

Hugging Face2022-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/trec-covid

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR Benchmark是一个异构的基准数据集，由18个不同的数据集组成，涵盖了9种信息检索任务，包括事实核查、问答、生物医学信息检索等。所有数据集均为英文，并且已经过预处理，可以直接用于实验。数据集的结构包括corpus、queries和qrels文件，分别存储文档、查询和查询文档相关性判断。数据集支持多种任务，并提供了一个排行榜来评估模型在特定任务上的表现。

BEIR Benchmark is a heterogeneous benchmark dataset composed of 18 distinct datasets, covering 9 information retrieval tasks including fact checking, question answering, biomedical information retrieval and others. All datasets are in English and have been preprocessed, and can be directly used for experiments. The dataset structure includes corpus, queries and qrels files, which respectively store documents, queries and query-document relevance judgments. The benchmark supports multiple tasks and provides a leaderboard to evaluate model performance on specific tasks.

提供机构：

BeIR

原始信息汇总

BEIR Benchmark 数据集概述

数据集描述

数据集总结

BEIR是一个异构基准，由18个多样化的数据集组成，涵盖9个信息检索任务。这些任务包括事实检查、问答、生物医学信息检索、新闻检索、论证检索、重复问题检索、引用预测、推文检索和实体检索。

支持的任务和排行榜

数据集支持排行榜，评估模型在特定任务上的表现，如F1或EM，以及从维基百科检索支持信息的能力。当前表现最佳的模型可在此处找到。

语言

所有任务均使用英语（en）。

数据集结构

数据实例

BEIR数据集包含以下组成部分：

corpus文件：.jsonl格式，包含文档标题和段落文本。
queries文件：.jsonl格式，包含查询文本。
qrels文件：.tsv格式，包含查询与文档的相关性评分。

数据字段

corpus：包含文档ID、标题和文本。
queries：包含查询ID和文本。
qrels：包含查询ID、文档ID和相关性评分。

数据分割

数据集根据不同任务和数据集类型（训练、验证、测试）进行分割，具体细节见数据集详情页。

数据集创建

来源数据

初始数据收集和标准化：信息缺失。
源语言生产者：信息缺失。

注释

注释过程：信息缺失。
注释者：信息缺失。

个人和敏感信息

信息缺失。

使用数据的考虑

数据集的社会影响

信息缺失。

偏见讨论

信息缺失。

其他已知限制

信息缺失。

附加信息

数据集管理员

信息缺失。

许可信息

数据集遵循cc-by-sa-4.0许可。

引用信息

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献

感谢@Nthakur20添加此数据集。

搜集汇总

数据集介绍

构建方式

BEIR Benchmark是由18个不同领域的数据集构建而成，涵盖了9种信息检索任务。这些数据集经过预处理，形成了包含文档集合、查询和相关性判断的三元组结构，以.jsonl和.tsv格式存储，便于实验操作。

特点

该数据集的特点在于其多样性，不仅包含事实核查、问题回答、生物医学信息检索等任务，而且数据来源广泛，涵盖了从新闻到社交媒体等不同领域的文本。此外，它支持零样本检索模型的评估，为研究者提供了一个全面的信息检索评估基准。

使用方法

使用该数据集时，研究者可以根据具体的任务需求，选择相应的数据集部分。数据集提供了文档、查询和相关性判断的文件，研究者可以基于这些数据构建和评估信息检索模型。此外，数据集的README文件中提供了详细的下载和使用说明，有助于用户正确地加载和使用数据集。

背景与挑战

背景概述

BEIR Benchmark，全称为"A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models"，是一个由德国卡尔斯鲁厄理工学院（Karlsruhe Institute of Technology，简称KIT）的UKPLab于2021年创建的异构信息检索模型基准测试数据集。该数据集汇集了18个不同领域的数据集，涵盖了9种信息检索任务，如事实检查、问题回答、生物医学信息检索、新闻检索等，旨在为模型在零样本学习情境下的信息检索性能提供评估标准。BEIR Benchmark的核心研究问题是提升信息检索模型在零样本学习场景下的泛化能力，对于信息检索领域的研究具有重要的推动作用。

当前挑战

在构建过程中，BEIR Benchmark面临的主要挑战包括：1) 数据集的多样性和异构性，需要处理不同来源、格式和类型的数据；2) 零样本学习场景下的评估问题，如何确保模型在没有或只有少量标注数据的情况下仍能保持良好的性能；3) 数据标注的质量控制，确保标注的一致性和准确性；4) 对隐私和个人敏感信息的处理，避免在数据集中泄露用户隐私。在解决的问题方面，BEIR Benchmark需要应对如何在不同领域和任务中平衡模型性能，以及如何有效地利用有限的标注数据来提升模型的泛化能力等挑战。

常用场景

经典使用场景

在众多信息检索任务中，BEIR/trec-covid数据集的经典使用场景当属生物医学信息检索领域。该数据集提供了针对COVID-19相关研究的文献摘要和查询，使得研究人员能够有效地检索到与新冠病毒相关的科学文献，助力于疫情的研究和控制工作。

衍生相关工作

基于BEIR/trec-covid数据集，研究者们已经开展了一系列相关工作，如开发针对特定疾病的文献检索工具，构建基于深度学习的生物医学信息检索模型等，推动了信息检索技术在医学领域的应用和发展。

数据集最近研究