irds/msmarco-document-v2_trec-dl-2019_judged

Name: irds/msmarco-document-v2_trec-dl-2019_judged
Creator: irds
Published: 2023-01-05 03:41:35
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/msmarco-document-v2_trec-dl-2019_judged

下载链接

链接失效反馈

官方服务：

资源简介：

`msmarco-document-v2/trec-dl-2019/judged`数据集由ir-datasets包提供，包含43个查询（即主题）。文档和查询相关性分别引用自`irds/msmarco-document-v2`和`irds/msmarco-document-v2_trec-dl-2019`数据集。该数据集主要用于文本检索任务。

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

msmarco-document-v2/trec-dl-2019/judged

数据来源

irds/msmarco-document-v2
irds/msmarco-document-v2_trec-dl-2019

任务类别

文本检索

数据内容

queries（查询）：数量为43
docs：使用irds/msmarco-document-v2数据集
qrels：使用irds/msmarco-document-v2_trec-dl-2019数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/msmarco-document-v2_trec-dl-2019_judged, queries) for record in queries: record # {query_id: ..., text: ...}

引用信息

@inproceedings{Craswell2019TrecDl, title={Overview of the TREC 2019 deep learning track}, author={Nick Craswell and Bhaskar Mitra and Emine Yilmaz and Daniel Campos and Ellen Voorhees}, booktitle={TREC 2019}, year={2019} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

搜集汇总

数据集介绍

构建方式

该数据集源自MS MARCO Document V2语料库，并基于TREC 2019深度学习赛道的人工相关性判断构建而成。具体而言，它选取了该赛道中43个查询主题，每个查询均附有对应的相关性标签（qrels），这些标签由专业评估人员对文档与查询之间的关联程度进行判定。数据集通过整合irds/msmarco-document-v2文档集合与irds/msmarco-document-v2_trec-dl-2019查询-相关性对，形成了经过筛选的评测子集，旨在为文本检索领域提供标准化的评估基准。

特点

数据集的核心特点在于其规模适中且高度聚焦，仅包含43个经过人工标注的查询，每个查询均具备明确的相关性判断，这使其成为评估检索模型性能的理想测试集。与原始MS MARCO Document V2大规模语料库不同，该数据集专注于TREC 2019深度学习任务的官方评测场景，能够有效衡量模型在真实信息检索挑战中的表现。此外，其与ir-datasets框架的紧密集成，确保了数据加载的标准化与可复现性。

使用方法

用户可通过HuggingFace Datasets库便捷地加载该数据集，具体调用load_dataset函数并指定数据集名称irds/msmarco-document-v2_trec-dl-2019_judged及子集'queries'，即可获取包含query_id与text字段的查询记录。文档内容需从irds/msmarco-document-v2独立加载，而相关性标签则源自irds/msmarco-document-v2_trec-dl-2019子集。这种模块化设计允许研究者灵活组合各组件，以复现TREC 2019评测流程或开展自定义检索实验。

背景与挑战

背景概述

信息检索领域的研究长期受限于缺乏大规模、真实场景下的查询与文档匹配基准，而TREC（文本检索会议）深度学习评测轨道的设立，为评估现代神经检索模型提供了权威平台。该数据集源自2019年TREC深度学习轨道，由微软研究院与TREC组织者联合创建，核心研究问题聚焦于如何基于MS MARCO Document v2语料库，针对43条人工评判的查询，构建高精度的文档排序系统。作为MS MARCO系列的重要延伸，该数据集将检索任务从段落级别扩展至文档级别，不仅推动了BERT、ColBERT等预训练语言模型在排序任务上的应用，更成为后续稀疏检索与稠密检索方法对比的标杆，对信息检索领域产生了深远影响。

当前挑战

该数据集面临的挑战首先体现在领域问题的复杂性上：文档级检索要求模型在更长的文本跨度中捕捉相关性信号，这比段落检索更易受噪声干扰且需要处理语义稀疏性，同时43条查询的有限规模难以全面覆盖真实场景中的查询多样性。构建过程中的挑战则包括：人工评判标准的统一性难以保证，不同标注者对相关性的理解差异可能引入噪声；从MS MARCO Document v2大规模语料中筛选出具有判别性的查询-文档对，需平衡标注成本与样本代表性；此外，TREC 2019评测轨道的时序性导致数据集无法直接反映后续年份的检索技术演进，限制了其作为长期基准的时效性。

常用场景

经典使用场景

在信息检索领域，MS MARCO Document v2与TREC深度学习赛道2019年评测任务的结合，构成了一个经典的文档级检索基准数据集。该数据集包含43个精心设计的查询，每个查询均配有经过人工判断的相关性标注，为评估检索模型在复杂文档集合中的排序能力提供了标准化测试平台。研究者常利用此数据集进行端到端的神经检索模型训练与评估，尤其适用于验证基于Transformer架构的深度语义匹配方法在长文档检索场景下的有效性。

衍生相关工作

该数据集衍生了一系列里程碑式工作，包括BERT-based密集检索模型（如ANCE、ColBERT）的验证与优化、稀疏-密集混合检索框架（如SPLADE）的提出，以及多阶段排序流水线的创新设计。这些研究不仅深化了对预训练语言模型在检索任务中泛化能力的理解，还催生了可解释性检索评估方法，例如基于注意力机制的相关性可视化分析，显著拓宽了神经信息检索的理论边界。

数据集最近研究