mteb/trec-covid

Name: mteb/trec-covid
Creator: mteb
Published: 2025-05-04 16:10:37
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/trec-covid

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于文本检索任务的英语单语言数据集，源数据集为TREC-COVID。数据集包含三个配置：default、corpus和queries。default配置包含query-id、corpus-id和score特征，test分割有66336个示例。corpus配置包含_id、title和text特征，corpus分割有171332个示例。queries配置包含_id和text特征，queries分割有50个示例。

提供机构：

mteb

原始信息汇总

数据集概述

语言和多语言性

语言: 英语
多语言性: 单语种

任务类别和任务ID

任务类别: 文本检索
任务ID: 文档检索

配置名称和特征

默认配置

特征:
- 名称: query-id dtype: string
- 名称: corpus-id dtype: string
- 名称: score dtype: float64
分割:
- 名称: test num_bytes: 1710499 num_examples: 66336

语料库配置

特征:
- 名称: _id dtype: string
- 名称: title dtype: string
- 名称: text dtype: string
分割:
- 名称: corpus num_bytes: 195185777 num_examples: 171332

查询配置

特征:
- 名称: _id dtype: string
- 名称: text dtype: string
分割:
- 名称: queries num_bytes: 3953 num_examples: 50

配置和数据文件

默认配置

数据文件:
- 分割: test path: qrels/test.jsonl

语料库配置

数据文件:
- 分割: corpus path: corpus.jsonl

查询配置

数据文件:
- 分割: queries path: queries.jsonl

搜集汇总

数据集介绍

构建方式

在信息检索领域，TREC-COVID数据集作为一项专门针对新冠疫情科学文献的检索挑战而构建。该数据集源自美国国家标准与技术研究院（NIST）组织的TREC-COVID竞赛，其构建过程严谨地遵循了学术检索评估的范式。数据集的构建核心在于从CORD-19等大型新冠研究论文集合中，精心筛选出171,332篇科学文献作为语料库，并设计了50个具有实际研究意义的查询问题。每个查询均通过专家标注，与语料库中的相关文档建立了66,336条人工判定的相关性关联，从而形成了一个结构清晰、标注可靠的测试集合，专门用于评估模型在医学学术文本上的检索性能。

特点

该数据集在医学信息检索领域展现出鲜明的专业特性。其语料库完全由新冠疫情相关的科学论文构成，涵盖了丰富的医学与学术写作风格，文本平均长度超过一千字符，确保了内容的深度与复杂性。数据集的查询设计紧密贴合实际研究需求，平均长度接近70字符，问题表述具体而专业。尤为突出的是，每个查询平均关联近五百篇相关文档，且相关文档集合具有高度的独特性，这为检索模型提供了区分细微相关性的挑战。数据集作为大规模文本嵌入基准（MTEB）的一部分，其结构经过标准化处理，支持高效的嵌入模型评估，并提供了详细的描述性统计，便于研究者深入分析任务特性。

使用方法

利用该数据集进行模型评估，需依托于大规模文本嵌入基准（MTEB）框架。研究者首先通过MTEB库获取TREC-COVID任务实例，继而初始化评估器。将待评估的嵌入模型传入评估器后，系统会自动执行检索流程：模型需为语料库中的所有文档以及全部查询生成向量表示，随后计算查询与文档之间的相似度并进行排序。评估器最终会依据标准的信息检索指标，如平均精度等，对排序结果与人工标注的相关性进行比对，从而输出模型的性能分数。整个过程封装完善，用户仅需数行代码即可完成从数据加载到性能报告的完整评估链路，极大地便利了嵌入模型在特定领域检索能力上的量化与比较。

背景与挑战

背景概述

TREC-COVID数据集诞生于2020年，由美国国家标准与技术研究院（NIST）联合多所研究机构共同创建，旨在应对新冠疫情爆发后激增的科学文献信息检索需求。该数据集聚焦于生物医学领域的特定检索任务，核心研究问题是如何从海量学术文献中精准定位与新冠病毒相关的证据，为公共卫生决策和科学研究提供高效的信息支持。其构建基于CORD-19开放研究数据集，通过系统化的查询标注与相关性评估，显著推动了信息检索技术在紧急公共卫生事件中的应用，成为评估文本嵌入模型性能的重要基准之一。

当前挑战

该数据集致力于解决生物医学文献检索中的核心挑战，即如何在专业性强、术语密集且更新迅速的科学文本中实现高精度、低延迟的语义匹配。构建过程中的主要困难包括：对大规模文献进行高质量的相关性标注需要领域专家深度参与，标注成本高昂且一致性难以保证；疫情相关研究动态演变，数据需持续更新以反映最新科学发现，维护复杂度高；此外，医学文本的复杂语义与多义性对检索模型的深层理解能力提出了严峻考验。

常用场景

经典使用场景

在信息检索领域，TRECCOVID数据集作为一项权威的临时搜索挑战，其经典使用场景聚焦于评估嵌入模型在医学文献检索中的性能。该数据集构建于新冠疫情相关的科学论文集合之上，通过精心设计的查询与文档相关性标注，为研究者提供了衡量模型在真实世界紧急信息需求下检索准确性的标准平台。嵌入模型在此数据集上的表现，直接反映了其理解复杂医学概念、捕捉语义关联的能力，成为推动检索技术前沿发展的关键试金石。

衍生相关工作

围绕TRECCOVID数据集，衍生了一系列具有影响力的经典研究工作。这些工作不仅包括在TREC-COVID竞赛中涌现的各种新颖检索与排序模型，还促进了预训练语言模型在密集检索领域的适配与优化研究。此外，该数据集作为MTEB基准的重要组成部分，催生了大量关于文本嵌入模型通用性与领域适应性的评估框架与比较研究，持续推动着信息检索与自然语言处理技术的交叉融合与进步。

数据集最近研究