five

BeIR/nfcorpus

收藏
Hugging Face2025-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/nfcorpus
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR是一个异构基准,由18个不同的数据集组成,代表9个信息检索任务。这些任务包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引文预测、推文检索和实体检索。数据集结构包括语料库、查询和qrels文件,所有任务均为英文。

BEIR is a heterogeneous benchmark that has been built from 18 diverse datasets representing 9 information retrieval tasks. These tasks include fact-checking, question-answering, bio-medical IR, news retrieval, argument retrieval, duplicate question retrieval, citation-prediction, tweet retrieval, and entity retrieval. The dataset structure includes a corpus, queries, and qrels files, and all tasks are in English.
提供机构:
BeIR
原始信息汇总

数据集概述

数据集名称: BEIR Benchmark

数据集简介: BEIR是一个异构基准,由18个多样化的数据集组成,代表9种信息检索任务。这些数据集包括事实检查、问答、生物医学信息检索、新闻检索等多个领域。

语言: 英语 (en)

许可证: CC-BY-SA-4.0

多语言性: 单语

数据集结构

数据集组成:

  • corpus: 包含文档标题和文本的.jsonl文件。
  • queries: 包含查询文本的.jsonl文件。
  • qrels: 包含查询-文档相关性评分的.tsv文件。

数据实例:

  • corpus: 文档ID、标题和文本。
  • queries: 查询ID和文本。
  • qrels: 查询ID、文档ID和评分。

支持的任务和领导者板

支持的任务:

  • 文本检索
  • 零样本检索
  • 信息检索
  • 零样本信息检索

任务ID:

  • 段落检索
  • 实体链接检索
  • 事实检查检索
  • 推文检索
  • 引用预测检索
  • 重复问题检索
  • 论证检索
  • 新闻检索
  • 生物医学信息检索
  • 问答检索

数据集创建

数据集来源:

  • 18个不同的数据集,包括FEVER、NQ、TREC-COVID等。

数据集大小:

  • 不同数据集的大小范围从1K到10M不等。

使用数据集的注意事项

数据集的社交影响、偏见讨论和其他已知限制:

  • 需要更多信息。

附加信息

数据集管理者:

  • 需要更多信息。

许可证信息:

  • CC-BY-SA-4.0

引用信息:

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献者:

搜集汇总
数据集介绍
main_image_url
构建方式
在生物医学信息检索领域,NFCorpus数据集作为BEIR基准的重要组成部分,其构建过程体现了严谨的学术规范。该数据集源自营养事实相关的科学文献检索任务,通过系统性地收集与整理专业文档与查询对而形成。其语料库包含3,633篇文档,查询集涵盖3,237条问题,每一条数据均经过结构化处理,包含唯一标识符、标题及文本内容,确保了数据的一致性与可追溯性。这种基于实际学术需求的构建方式,为评估检索模型在专业领域的零样本性能提供了可靠基础。
特点
NFCorpus数据集展现出鲜明的领域专属性与结构规范性。作为生物医学检索任务的代表,其内容聚焦于营养学事实的科学论述,具有高度的专业性与术语密度。数据集采用BEIR标准化的检索布局,明确区分语料库与查询集,每个实例均包含_id、title和text字段,其中标题字段在缺失时以空字符串表示,这种设计兼顾了灵活性与完整性。相较于通用检索数据集,NFCorpus的查询-文档关联更具学科深度,平均每个查询对应约38.2个相关文档,反映了学术检索中信息匹配的复杂性。
使用方法
该数据集的使用遵循信息检索评估的标准范式。研究者可通过Hugging Face平台直接加载,或利用BEIR提供的独立下载链接获取原始数据。典型应用流程包括:首先加载语料库与查询集,随后基于检索模型计算查询与文档的相关性得分,最终通过与标注的相关性判断(qrels)进行比对,评估模型的检索精度。数据集支持零样本检索评估,允许研究者测试模型在未见过的生物医学查询上的泛化能力。其结构化格式也便于集成到现有检索系统流水线中,为模型比较与性能分析提供统一基准。
背景与挑战
背景概述
在信息检索领域,评估模型在多样化任务上的零样本泛化能力一直是核心研究议题。BEIR基准由Nandan Thakur等研究人员于2021年构建,旨在通过整合18个异构数据集,涵盖事实核查、问答、生物医学检索等九大任务,为信息检索模型提供一个统一且严格的评估框架。NFCorpus作为BEIR中生物医学检索任务的子集,专注于营养事实相关的科学文献检索,其创建深化了专业领域检索的评估维度,推动了检索模型在跨领域、零样本场景下的性能研究,对信息检索技术的标准化与前沿发展产生了显著影响。
当前挑战
NFCorpus数据集面临的挑战主要体现在两个方面:在领域问题层面,生物医学检索涉及高度专业化的术语和复杂的语义关联,模型需精准理解营养学领域的细微差异,并处理科学文献中常见的冗长文本与稀疏相关性标注,这对检索精度与鲁棒性提出了严峻考验。在构建过程中,挑战源于数据收集与标注的复杂性,包括从多样化的科学来源整合高质量文档、确保查询与相关文档之间标注的一致性与可靠性,以及在小规模数据集上维持统计代表性,这些因素共同增加了数据集构建的技术难度与资源需求。
常用场景
经典使用场景
在生物医学信息检索领域,NFCorpus数据集作为BEIR基准测试的重要组成部分,其经典使用场景聚焦于零样本检索模型的评估与优化。该数据集通过提供营养事实相关的科学文献查询与文档对,使研究者能够模拟真实世界中的专业信息查找过程,从而系统性地测试检索算法在未见领域数据上的泛化能力。这种评估不仅涵盖了检索精度与召回率的量化分析,还深入探讨了模型对复杂医学术语和上下文关系的理解深度,为跨任务性能比较提供了严谨的实验基础。
解决学术问题
NFCorpus数据集有效解决了信息检索研究中若干关键学术问题,特别是在零样本学习场景下模型泛化能力的评估难题。传统检索模型往往依赖于特定领域的标注数据进行训练,而该数据集通过构建跨任务的异构基准,促使研究者开发出更具适应性的检索架构。其意义在于推动了检索模型从依赖密集监督向依赖语义理解的范式转变,为评估模型在生物医学等专业领域的迁移性能提供了标准化度量,进而加速了检索技术在学术文献挖掘中的创新应用。
衍生相关工作
围绕NFCorpus数据集衍生的经典工作主要集中在检索模型的架构创新与评估框架的拓展上。例如,BEIR基准的提出本身即引领了一系列针对零样本检索的跨任务研究,促进了如DPR、ANCE等密集检索模型在该数据集上的性能优化。后续研究进一步探索了结合预训练语言模型的混合检索方法,以及针对生物医学文本的领域自适应技术,这些工作不仅深化了对专业文本语义匹配机制的理解,也为构建更鲁棒的行业级检索系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作