five

irds/msmarco-document-v2_trec-dl-2019_judged

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/msmarco-document-v2_trec-dl-2019_judged
下载链接
链接失效反馈
官方服务:
资源简介:
`msmarco-document-v2/trec-dl-2019/judged`数据集由ir-datasets包提供,包含43个查询(即主题)。文档和查询相关性分别引用自`irds/msmarco-document-v2`和`irds/msmarco-document-v2_trec-dl-2019`数据集。该数据集主要用于文本检索任务。
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

msmarco-document-v2/trec-dl-2019/judged

数据来源

  • irds/msmarco-document-v2
  • irds/msmarco-document-v2_trec-dl-2019

任务类别

  • 文本检索

数据内容

  • queries(查询):数量为43
  • docs:使用irds/msmarco-document-v2数据集
  • qrels:使用irds/msmarco-document-v2_trec-dl-2019数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/msmarco-document-v2_trec-dl-2019_judged, queries) for record in queries: record # {query_id: ..., text: ...}

引用信息

@inproceedings{Craswell2019TrecDl, title={Overview of the TREC 2019 deep learning track}, author={Nick Craswell and Bhaskar Mitra and Emine Yilmaz and Daniel Campos and Ellen Voorhees}, booktitle={TREC 2019}, year={2019} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自MS MARCO Document V2语料库,并基于TREC 2019深度学习赛道的人工相关性判断构建而成。具体而言,它选取了该赛道中43个查询主题,每个查询均附有对应的相关性标签(qrels),这些标签由专业评估人员对文档与查询之间的关联程度进行判定。数据集通过整合irds/msmarco-document-v2文档集合与irds/msmarco-document-v2_trec-dl-2019查询-相关性对,形成了经过筛选的评测子集,旨在为文本检索领域提供标准化的评估基准。
特点
数据集的核心特点在于其规模适中且高度聚焦,仅包含43个经过人工标注的查询,每个查询均具备明确的相关性判断,这使其成为评估检索模型性能的理想测试集。与原始MS MARCO Document V2大规模语料库不同,该数据集专注于TREC 2019深度学习任务的官方评测场景,能够有效衡量模型在真实信息检索挑战中的表现。此外,其与ir-datasets框架的紧密集成,确保了数据加载的标准化与可复现性。
使用方法
用户可通过HuggingFace Datasets库便捷地加载该数据集,具体调用load_dataset函数并指定数据集名称irds/msmarco-document-v2_trec-dl-2019_judged及子集'queries',即可获取包含query_id与text字段的查询记录。文档内容需从irds/msmarco-document-v2独立加载,而相关性标签则源自irds/msmarco-document-v2_trec-dl-2019子集。这种模块化设计允许研究者灵活组合各组件,以复现TREC 2019评测流程或开展自定义检索实验。
背景与挑战
背景概述
信息检索领域的研究长期受限于缺乏大规模、真实场景下的查询与文档匹配基准,而TREC(文本检索会议)深度学习评测轨道的设立,为评估现代神经检索模型提供了权威平台。该数据集源自2019年TREC深度学习轨道,由微软研究院与TREC组织者联合创建,核心研究问题聚焦于如何基于MS MARCO Document v2语料库,针对43条人工评判的查询,构建高精度的文档排序系统。作为MS MARCO系列的重要延伸,该数据集将检索任务从段落级别扩展至文档级别,不仅推动了BERT、ColBERT等预训练语言模型在排序任务上的应用,更成为后续稀疏检索与稠密检索方法对比的标杆,对信息检索领域产生了深远影响。
当前挑战
该数据集面临的挑战首先体现在领域问题的复杂性上:文档级检索要求模型在更长的文本跨度中捕捉相关性信号,这比段落检索更易受噪声干扰且需要处理语义稀疏性,同时43条查询的有限规模难以全面覆盖真实场景中的查询多样性。构建过程中的挑战则包括:人工评判标准的统一性难以保证,不同标注者对相关性的理解差异可能引入噪声;从MS MARCO Document v2大规模语料中筛选出具有判别性的查询-文档对,需平衡标注成本与样本代表性;此外,TREC 2019评测轨道的时序性导致数据集无法直接反映后续年份的检索技术演进,限制了其作为长期基准的时效性。
常用场景
经典使用场景
在信息检索领域,MS MARCO Document v2与TREC深度学习赛道2019年评测任务的结合,构成了一个经典的文档级检索基准数据集。该数据集包含43个精心设计的查询,每个查询均配有经过人工判断的相关性标注,为评估检索模型在复杂文档集合中的排序能力提供了标准化测试平台。研究者常利用此数据集进行端到端的神经检索模型训练与评估,尤其适用于验证基于Transformer架构的深度语义匹配方法在长文档检索场景下的有效性。
衍生相关工作
该数据集衍生了一系列里程碑式工作,包括BERT-based密集检索模型(如ANCE、ColBERT)的验证与优化、稀疏-密集混合检索框架(如SPLADE)的提出,以及多阶段排序流水线的创新设计。这些研究不仅深化了对预训练语言模型在检索任务中泛化能力的理解,还催生了可解释性检索评估方法,例如基于注意力机制的相关性可视化分析,显著拓宽了神经信息检索的理论边界。
数据集最近研究
最新研究方向
在信息检索领域,MS MARCO Document V2与TREC 2019深度学习赛道评测任务的结合,正推动着面向大规模文档集合的神经排序模型向更深层次发展。该数据集聚焦于43个复杂查询的精准匹配与相关性判断,成为当前研究热点——如何利用预训练语言模型(如BERT、T5)捕捉查询与长文档间的语义交互,同时应对文档长度带来的计算挑战。前沿方向包括基于稠密检索的端到端排序架构、多阶段检索中的重排序策略优化,以及弱监督信号在训练数据稀疏场景下的增强方法。作为TREC DL Track的官方基准,该数据集不仅验证了深度模型在真实噪声环境下的泛化能力,更通过judged标注为可解释性分析提供了关键支撑,其影响力延伸至对话式搜索、跨语言检索等新兴应用,是连接学术创新与工业部署的重要桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作