scidocs_bm25_hn

Hugging Face2026-02-08 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/envyr/scidocs_bm25_hn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于信息检索或相似性学习任务，包含查询语句（query）、正例（positive）和多个负例（negative_1到negative_5）的文本数据。每个负例包含id、text和title三个字段。此外，数据集还提供了bm25_scores字段，为一组float32数值。数据集仅包含训练集（train），共有74,793个样本，总大小为564,139,136字节。下载大小为266,572,728字节。数据文件默认存储在'data/train-*'路径下。

创建时间：

2026-02-05

搜集汇总

数据集介绍

构建方式

在科学文献检索领域，构建高质量的训练数据对于提升模型性能至关重要。scidocs_bm25_hn数据集基于科学文献检索任务，通过BM25算法从原始文档中检索相关段落，并采用硬负采样策略精心构建而成。具体而言，每个训练样本包含一个查询语句、一个正例文档以及五个负例文档，这些负例是通过BM25算法检索出的与查询相关但非最佳的文档，从而模拟真实检索场景中的挑战性样本。数据集的构建过程注重检索相关性与难度平衡，确保了训练数据的多样性和实用性，为模型学习区分细微相关性差异提供了坚实基础。

特点

该数据集在科学文献检索任务中展现出显著特点，其核心在于结合了BM25检索分数与硬负采样机制。每个样本不仅提供了查询、正例和多个负例的文本内容，还附带了BM25算法计算出的相关性分数列表，这为模型训练提供了丰富的监督信号。硬负采样的引入使得负例文档与查询具有一定相关性，而非随机无关文本，从而增加了训练难度，有助于模型学习更精细的语义区分能力。数据集规模适中，包含数万个训练样本，覆盖了广泛的科学文献主题，确保了数据的代表性和泛化潜力，为检索模型的优化提供了高质量资源。

使用方法

在科学文献检索模型的研究与应用中，scidocs_bm25_hn数据集主要用于训练和评估检索系统的性能。使用者可以直接加载数据集的训练分割，利用查询、正例和负例文本构建对比学习或三元组损失训练任务，以提升模型在科学领域的检索准确性。数据集中的BM25分数可作为辅助特征，融入模型训练过程，增强对相关性程度的理解。此外，该数据集适用于微调预训练语言模型，如BERT或SciBERT，通过硬负采样策略优化嵌入表示，最终应用于实际科学文献检索系统，提升文档排序和推荐效果。

背景与挑战

背景概述

在信息检索与科学文献挖掘领域，高质量的数据集对于推动模型性能提升至关重要。scidocs_bm25_hn数据集应运而生，专注于科学文档的检索与排序任务，其构建旨在通过查询与正负样本的对比学习框架，优化嵌入表示的学习过程。该数据集由研究团队基于大规模科学文献库精心构建，核心研究问题聚焦于如何有效区分相关与不相关文档，以增强检索系统的准确性与鲁棒性。自推出以来，它已成为评估和训练检索模型的重要基准，显著促进了科学知识发现与学术信息系统的智能化发展。

当前挑战

该数据集致力于解决科学文档检索中的语义匹配与排序挑战，要求模型能够精准理解复杂学术查询并识别高度相关的文献，同时有效排除干扰项。构建过程中的挑战主要体现在数据质量把控方面，包括如何从海量科学文献中筛选具有代表性的正负样本，确保负样本既具挑战性又避免偏差，以及利用BM25算法生成分数时需平衡效率与相关性评估的准确性。这些挑战共同构成了数据集在推动检索技术进步中的关键难点。

常用场景

经典使用场景

在科学文献检索与语义相似性计算领域，scidocs_bm25_hn数据集通过提供查询语句、正例文档及多个负例文档的结构化数据，成为训练和评估密集检索模型的核心资源。该数据集常用于构建对比学习框架，使模型能够区分相关与不相关的科学文献，从而优化文档排序和检索精度。其经典应用场景包括学术搜索引擎的优化，以及科学知识图谱的嵌入表示学习，为信息检索系统提供了高质量的监督信号。

衍生相关工作

基于scidocs_bm25_hn数据集，衍生出多项经典研究工作，包括基于对比学习的预训练检索模型（如DPR和ANCE）的优化与评估。这些工作进一步拓展了科学文献的嵌入表示方法，促进了如SciBERT等领域特定模型的发展。此外，该数据集还催生了针对学术检索的基准测试框架，为后续研究提供了标准化评估环境，推动了信息检索与自然语言处理领域的交叉创新。

数据集最近研究