BeIR/scidocs

Name: BeIR/scidocs
Creator: BeIR
Published: 2026-04-09 17:44:04
License: 暂无描述

Hugging Face2026-04-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/scidocs

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR是一个异构的基准测试，由18个不同的数据集组成，代表了9种信息检索任务，包括事实核查、问答、生物医学信息检索、新闻检索等。所有数据集均为英文，并且已经过预处理，可以直接用于实验。数据集的结构包括corpus、queries和qrels三个部分，分别存储文档、查询和查询与文档的相关性判断。

BEIR is a heterogeneous benchmark composed of 18 distinct datasets, encompassing 9 types of information retrieval tasks including fact checking, question answering, biomedical information retrieval, news retrieval, among others. All datasets are in English and have been preprocessed, ready for direct experimental use. The dataset structure consists of three parts: corpus, queries and qrels, which store documents, queries, and relevance judgments between queries and documents respectively.

提供机构：

BeIR

原始信息汇总

BEIR Benchmark 数据集概述

数据集描述

数据集摘要

BEIR是一个异构基准，由18个不同数据集组成，涵盖9个信息检索任务，包括事实核查、问答、生物医学信息检索等。

支持的任务和排行榜

BEIR支持多种任务，如段落检索、实体链接检索等，并提供排行榜以评估模型性能。

语言

所有任务均使用英语。

数据集结构

数据实例

每个BEIR数据集包含三个主要部分：文档库、查询和相关性判断。文档库和查询以JSONL格式存储，相关性判断以TSV格式存储。

数据字段

文档库：包含文档ID、标题和文本。
查询：包含查询ID和文本。
相关性判断：包含查询ID、文档ID和相关性分数。

数据分割

数据集根据不同任务和数据集来源进行分割，如MSMARCO、TREC-COVID等，每个数据集都有详细的大小和下载信息。

数据集创建

来源数据

数据集由多个源数据集组成，每个源数据集都有其特定的任务和数据格式。

许可证信息

数据集遵循CC-BY-SA-4.0许可证。

引用信息

引用该数据集时，应使用提供的引用格式。

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建一个全面且多样化的评估基准对于推动模型发展至关重要。BEIR/scidocs数据集作为BEIR基准的一部分，其构建过程体现了严谨的学术整合。该数据集源自AllenAI的SCIDOCS资源，专注于学术文献的引文预测任务。构建者通过系统性地收集科学出版物的元数据、摘要及引用关系，形成了结构化的语料库、查询集及相关性标注。数据经过规范化处理，统一为JSON Lines格式的语料文件、查询文件以及TSV格式的相关性判断文件，确保了数据的一致性与易用性，为后续的零样本检索评估奠定了坚实基础。

使用方法

使用该数据集进行信息检索研究时，研究人员可依托BEIR提供的统一评估框架。典型流程包括加载预处理好的语料、查询及相关性标注文件，这些文件分别以JSON Lines和TSV格式存储。开发者可以运用各种检索模型——如密集检索器或稀疏检索器——在给定查询上从语料中检索相关文档。评估阶段则通过计算nDCG@10、MAP、Recall@k等标准信息检索指标，来衡量模型在引文预测任务上的性能。数据集主要用于测试阶段，支持零样本设置，即模型无需在该数据集上额外训练即可直接评估，这有助于深入分析模型在跨领域学术检索中的适应性与鲁棒性。

背景与挑战

背景概述

在信息检索领域，评估模型的泛化能力一直是核心研究议题。BEIR基准由Nandan Thakur等研究人员于2021年构建，旨在通过整合18个异构数据集，涵盖事实核查、问答系统、生物医学检索等九大任务，为零样本检索模型提供统一评估框架。该基准由UKP Lab等机构推动，其设计理念源于对现有检索模型在跨领域场景中表现不一致的深刻洞察，通过标准化数据格式与评估流程，显著提升了模型可比性与可复现性，对推动检索技术向更通用、更鲁棒的方向发展产生了深远影响。

当前挑战

BEIR基准所应对的核心挑战在于解决信息检索模型在零样本设置下的领域适应性问题，即模型在未经特定领域训练时，能否从科学文献到社交媒体等多样文本中准确检索相关信息。构建过程中的挑战则体现在数据集的异构整合上：需将不同来源、结构与标注标准的数据统一为标准化格式，同时保持各数据集原有的任务特性与评估维度，并确保数据质量与一致性，这涉及复杂的预处理流程与严谨的验证机制。

常用场景

经典使用场景

在信息检索领域，BEIR/scidocs数据集作为科学文献引用预测任务的核心资源，其经典使用场景聚焦于评估模型在跨领域零样本检索中的泛化能力。研究者通过该数据集构建的查询-文档对，能够系统测试检索模型在未见科学主题上的表现，从而推动检索算法从特定领域依赖向通用智能迈进。这种评估不仅涵盖了传统的关键词匹配，更深入到语义层面的相关性理解，为科学知识的高效组织与发现提供了基准。

解决学术问题

该数据集有效解决了信息检索研究中模型泛化能力评估的瓶颈问题。传统检索模型往往在特定数据集上表现优异，却难以迁移至新领域，BEIR/scidocs通过整合多任务异构数据，建立了统一的零样本评估框架。这一创新使得研究者能够量化模型在科学文献检索中的稳健性，促进了跨任务知识迁移理论的发展，并为构建通用检索系统奠定了实证基础。

实际应用

在实际应用中，BEIR/scidocs数据集为学术搜索引擎和知识管理系统的优化提供了关键支持。基于该数据集训练的检索模型能够精准识别科学文献间的引用关系，辅助研究人员快速定位相关前沿工作。此外，在科技情报分析场景中，该系统可自动追踪学科发展脉络，揭示知识演化路径，显著提升学术信息服务的智能化水平。

数据集最近研究