BeIR/nq
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/nq
下载链接
链接失效反馈官方服务:
资源简介:
BEIR Benchmark是一个异构的基准测试,由18个不同的数据集组成,代表了9种信息检索任务。这些任务包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有数据集均为英文,并已预处理,可用于实验。数据集的结构包括corpus、queries和qrels文件,分别用于存储文档、查询和查询与文档的相关性判断。
BEIR Benchmark is a heterogeneous benchmark composed of 18 distinct datasets covering 9 types of information retrieval tasks. These tasks include fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. All datasets are in English and have been preprocessed for experimental use. The datasets follow a standardized structure with three core file types: corpus, queries, and qrels, which are respectively used to store documents, search queries, and relevance judgments between queries and documents.
提供机构:
BeIR
原始信息汇总
数据集概述
数据集名称
- 名称: BEIR Benchmark
- 别名: BEIR
数据集属性
- 语言: 英语 (
en) - 许可证: CC-BY-SA-4.0
- 多语言性: 单语
数据集大小
- MSMARCO: 1M<n<10M
- TREC-COVID: 100k<n<1M
- NFCorpus: 1K<n<10K
- NQ: 1M<n<10M
- HotpotQA: 1M<n<10M
- FiQA: 10K<n<100K
- ArguAna: 1K<n<10K
- Touche-2020: 100K<n<1M
- CQADupstack: 100K<n<1M
- Quora: 100K<n<1M
- DBpedia: 1M<n<10M
- SCIDOCS: 10K<n<100K
- FEVER: 1M<n<10M
- Climate-FEVER: 1M<n<10M
- SciFact: 1K<n<10K
支持的任务
- 任务类别:
- 文本检索
- 零样本检索
- 信息检索
- 零样本信息检索
- 具体任务:
- 段落检索
- 实体链接检索
- 事实检查检索
- 推文检索
- 引用预测检索
- 重复问题检索
- 论点检索
- 新闻检索
- 生物医学信息检索
- 问答检索
数据集结构
- 数据实例格式:
- 语料库:
.jsonl文件,包含文档ID、标题和文本 - 查询:
.jsonl文件,包含查询ID和文本 - qrels:
.tsv文件,包含查询ID、文档ID和评分
- 语料库:
数据集创建
-
引用信息:
@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }
贡献者
- 主要贡献者: @Nthakur20
搜集汇总
数据集介绍

构建方式
BEIR/nq数据集作为BEIR基准测试的一部分,其构建过程基于自然语言处理领域的信息检索任务需求。该数据集从多个公开的问答和检索数据集中提取并整合,涵盖了广泛的主题和任务类型。数据集的构建遵循严格的预处理流程,确保数据的一致性和可用性。每个数据实例包括文档、查询和相关度评分,这些数据通过自动化工具和人工审核相结合的方式进行整理和标注,以确保数据的高质量和多样性。
特点
BEIR/nq数据集的特点在于其多样性和广泛的应用场景。数据集包含了来自不同领域的问答对和文档,涵盖了从科学事实到日常知识的广泛主题。其数据格式统一,便于模型训练和评估。此外,数据集支持零样本检索任务,能够有效评估模型在未见数据上的泛化能力。数据集的高质量和多样性使其成为信息检索领域的重要基准之一。
使用方法
使用BEIR/nq数据集时,研究人员可以通过加载预处理的JSONL和TSV文件进行模型训练和评估。数据集提供了标准的文档、查询和相关度评分文件,用户可以直接将其输入到信息检索模型中。通过对比模型在不同任务上的表现,研究人员可以评估模型的检索能力和泛化性能。此外,数据集支持零样本检索任务,用户可以通过调整模型参数和训练策略,探索模型在新任务上的表现。
背景与挑战
背景概述
BEIR(Benchmark for Information Retrieval)是一个异构的信息检索基准数据集,由18个不同的数据集组成,涵盖了9种信息检索任务。该数据集由Nandan Thakur等人于2021年提出,旨在为零样本信息检索模型的评估提供一个多样化的基准。BEIR的创建基于多个公开数据集,如NQ、HotpotQA、TREC-COVID等,涵盖了从事实核查到生物医学信息检索的广泛领域。BEIR的推出极大地推动了信息检索领域的研究,尤其是在零样本学习和跨领域检索任务中,为研究者提供了一个统一的评估平台。
当前挑战
BEIR数据集在构建和应用过程中面临多重挑战。首先,数据集涵盖了多个领域和任务,如何在这些异构数据上设计统一的评估标准是一个关键问题。其次,零样本信息检索任务要求模型在没有特定领域训练数据的情况下进行检索,这对模型的泛化能力提出了极高要求。此外,数据集的构建过程中,如何确保数据的质量、一致性和标注的准确性也是一个重要挑战。最后,由于数据集来源广泛,如何有效整合不同数据格式和结构,并确保数据处理的效率,也是构建过程中需要克服的技术难题。
常用场景
经典使用场景
BEIR/nq数据集在信息检索领域中被广泛用于评估模型在自然语言问答任务中的表现。该数据集通过提供大量的问题-答案对,帮助研究人员测试和优化模型在零样本检索任务中的性能。特别是在处理复杂问题时,模型需要从海量文本中准确提取相关信息,BEIR/nq为此提供了丰富的实验场景。
解决学术问题
BEIR/nq数据集解决了信息检索领域中的多个关键问题,尤其是在零样本检索和问答系统中的应用。通过提供多样化的任务和数据集,研究人员能够评估模型在不同情境下的泛化能力,从而推动信息检索技术的发展。该数据集还为模型在跨领域任务中的表现提供了基准,帮助学术界更好地理解模型的局限性。
衍生相关工作
BEIR/nq数据集催生了大量相关研究工作,尤其是在零样本检索和问答系统领域。许多研究团队基于该数据集提出了新的模型架构和优化算法,进一步推动了信息检索技术的发展。例如,一些研究通过结合预训练语言模型和检索技术,显著提升了模型在复杂问答任务中的表现。这些工作不仅扩展了BEIR/nq的应用范围,也为未来的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



