trec-covid_bm25_hn

Hugging Face2026-02-08 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/envyr/trec-covid_bm25_hn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含查询文本及其相关正负样本的训练集，专门用于信息检索或相似文本匹配任务的模型训练。数据集主要包含以下字段：query（查询字符串）、positive（正样本字符串）、以及五个负样本（negative_1到negative_5，每个负样本包含id、text和title三个子字段）。此外，还提供了每个负样本与查询之间的BM25相关性分数列表（bm25_scores）。数据集规模为480,036个训练样本，总大小约3.51GB，下载压缩包约1.96GB。数据以结构化形式存储，适用于需要对比学习或负采样策略的NLP任务。

创建时间：

2026-02-07

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建高质量的检索训练数据对于模型性能至关重要。trec-covid_bm25_hn数据集基于TREC-COVID挑战赛的语料库，通过BM25算法进行初步检索，并采用难负例挖掘策略构建而成。具体而言，针对每个查询，从TREC-COVID文档集合中选取一个相关文档作为正例，同时利用BM25检索结果中排名较高但未标记为相关的文档作为负例，从而形成包含一个正例和五个难负例的样本结构。这种构建方式旨在模拟真实检索场景中的挑战，提升模型区分相关与不相关文档的能力。

特点

该数据集的核心特征体现在其针对性的样本设计和丰富的比较信息上。每个样本包含一个查询、一个正例文档以及五个经过筛选的难负例文档，这种结构直接服务于对比学习或排序学习任务。此外，数据集还提供了每个负例对应的BM25分数列表，为研究传统检索模型与神经检索模型之间的关联提供了便利。数据集规模较大，包含超过48万个训练样本，确保了训练数据的多样性，能够有效支持深度检索模型的训练与评估。

使用方法

在应用该数据集时，研究者主要将其用于训练和评估信息检索模型，特别是基于深度学习的检索和重排序模型。典型的使用流程是加载数据集后，将查询、正例和负例文本输入到双编码器或交叉编码器架构中，通过对比损失或列表损失进行模型优化。数据集中的BM25分数可作为特征输入或基准参考，用于分析神经模型相对于传统方法的性能提升。该数据集通常作为训练集使用，需要配合TREC-COVID的官方测试集或其他基准进行最终评估，以衡量模型在真实COVID-19科学文献检索任务上的有效性。

背景与挑战

背景概述

TREC-COVID数据集诞生于2020年，由美国国家标准与技术研究院（NIST）主导，旨在应对新冠疫情爆发期间信息过载的严峻挑战。该数据集聚焦于生物医学文献检索领域，核心研究问题在于如何高效地从海量科学文献中精准定位与COVID-19相关的关键证据，为科研人员和公共卫生决策提供即时支持。其构建汇集了全球多所知名研究机构的共同努力，通过系统性的标注与评估，显著推动了信息检索、自然语言处理技术在紧急公共卫生事件中的应用，成为该领域的重要基准资源。

当前挑战

该数据集所针对的领域挑战在于，生物医学文本具有高度专业化与动态演变的特性，要求检索模型不仅能理解复杂医学术语，还需适应疫情发展中不断涌现的新知识。在构建过程中，研究人员面临标注一致性难题，需协调领域专家对大量文献进行相关性判断，确保数据质量。同时，负例采样策略的设计也颇具挑战，需在难度控制与真实性之间取得平衡，以有效训练鲁棒的密集检索模型，避免模型过拟合于表面特征。

常用场景

经典使用场景

在信息检索领域，TREC-COVID数据集作为评估检索系统性能的基准，其衍生版本trec-covid_bm25_hn通过BM25算法生成负样本，为密集检索模型的训练提供了高质量数据。该数据集常用于训练和评估基于深度学习的检索模型，如双编码器或交叉编码器，以提升模型在医学文献检索中的准确性和鲁棒性。研究者利用其构建的查询-正例-负例三元组，优化模型对相关文档的区分能力，推动检索技术的前沿发展。

解决学术问题

trec-covid_bm25_hn数据集解决了信息检索中负样本构建的挑战，传统方法依赖随机或启发式策略，可能导致训练数据质量低下。该数据集通过BM25算法筛选硬负样本，有效模拟真实检索场景中的困难案例，助力模型学习更精细的语义表示。这促进了密集检索模型在学术研究中的进展，特别是在处理专业领域如生物医学文本时，提升了模型对复杂查询的理解和匹配精度，为检索系统的优化提供了实证基础。

衍生相关工作

该数据集衍生了多项经典研究工作，例如在密集检索领域，研究者利用其训练BERT-based模型，如DPR或ANCE，以改进文档表示学习。这些工作探索了硬负样本挖掘策略对模型性能的影响，推动了检索模型在TREC-COVID竞赛中的表现提升。同时，它还激发了跨领域检索方法的发展，如将医学检索技术迁移至其他科学领域，促进了信息检索与自然语言处理的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集