five

irds/msmarco-passage_trec-dl-hard_fold4

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/msmarco-passage_trec-dl-hard_fold4
下载链接
链接失效反馈
官方服务:
资源简介:
msmarco-passage/trec-dl-hard/fold4数据集,由ir-datasets包提供,属于文本检索任务类别。数据集包含10个查询和716个相关性评估,文档数据来源于irds/msmarco-passage数据集。
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

msmarco-passage/trec-dl-hard/fold4

数据来源

  • 源数据集:irds/msmarco-passage

任务类别

  • 文本检索

数据内容

  • queries(查询):数量=10
  • qrels(相关性评估):数量=716
  • docs(文档):使用irds/msmarco-passage数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/msmarco-passage_trec-dl-hard_fold4, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/msmarco-passage_trec-dl-hard_fold4, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ...}

引用信息

@article{Mackie2021DlHard, title={How Deep is your Learning: the DL-HARD Annotated Deep Learning Dataset}, author={Iain Mackie and Jeffrey Dalton and Andrew Yates}, journal={ArXiv}, year={2021}, volume={abs/2105.07975} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建高质量评估数据集对于推动模型性能至关重要。msmarco-passage/trec-dl-hard/fold4数据集源自ir-datasets包,其核心构建方式基于对MS MARCO-passage数据集的深度处理与筛选。该数据集专门针对TREC Deep Learning Track中的困难查询(Hard Queries)进行设计,通过专家标注与严格评估流程,从原始大规模语料中提取出具有挑战性的查询子集。具体而言,fold4作为交叉验证的一个划分,包含了10个精心挑选的查询及其对应的716个相关性判断(qrels),而文档数据则直接引用自irds/msmarco-passage源数据集,确保了数据的一致性与完整性。
特点
该数据集的特点体现在其专注于信息检索中的困难查询评估,为深度学习模型提供了更具挑战性的测试平台。其查询数量虽仅10个,但每个查询均经过严格筛选,代表了实际应用中复杂且模棱两可的信息需求。相关性判断(qrels)涵盖716个条目,提供了细致的人工标注反馈,有助于精确衡量检索系统的性能。作为TREC DL-HARD系列的一部分,fold4划分支持交叉验证方法,减少了评估偏差,同时与MS MARCO-passage文档集的直接关联,保证了数据源的权威性与广泛适用性,为研究社区提供了标准化的基准测试环境。
使用方法
使用该数据集时,研究人员可通过Hugging Face的datasets库便捷加载。具体操作包括调用load_dataset函数并指定数据集名称irds/msmarco-passage_trec-dl-hard_fold4,以及所需的数据组件(如queries或qrels)。查询部分以字典形式提供query_id和text字段,便于直接获取查询内容;相关性判断则包含query_id、doc_id和relevance字段,用于评估检索结果的相关性等级。需要注意的是,文档数据需从irds/msmarco-passage单独加载,这种分离设计优化了数据管理效率。加载过程会自动处理下载与格式转换,确保数据以标准化的🤗 Dataset格式呈现,支持高效的迭代与处理流程。
背景与挑战
背景概述
在信息检索领域,大规模标注数据集的构建是推动深度学习方法应用的关键。msmarco-passage/trec-dl-hard/fold4数据集源于微软亚洲研究院于2016年发布的MS MARCO项目,该项目旨在通过人类生成的机器阅读理解数据,提升自然语言处理任务的性能。该数据集由Iain Mackie、Jeffrey Dalton和Andrew Yates等研究人员在2021年进一步扩展,专注于深度学习硬查询(DL-HARD)的评估,核心研究问题在于解决复杂、多层次的查询与文档匹配挑战,对推动检索模型在真实场景中的鲁棒性和准确性具有显著影响力。
当前挑战
该数据集所解决的领域问题是文本检索中的硬查询匹配,挑战在于处理语义模糊、上下文依赖性强或信息需求复杂的查询,这些查询往往需要超越表面词汇匹配的深层理解。构建过程中的挑战包括:从海量MS MARCO原始数据中筛选和标注高质量硬查询,确保评估集具有代表性和区分度;以及设计跨fold的分割策略,以支持稳健的模型验证,避免数据偏差影响评估结果。
常用场景
经典使用场景
在信息检索领域,深度神经网络模型的发展对评估数据集提出了更高要求。`irds/msmarco-passage_trec-dl-hard_fold4`作为TREC深度学习赛道的重要子集,专门用于评估检索系统处理复杂查询的能力。该数据集通过精心筛选的困难查询及其相关性标注,为研究者提供了验证模型在真实场景下鲁棒性的标准测试平台,尤其适用于对比不同神经检索架构在挑战性任务上的性能差异。
解决学术问题
该数据集有效解决了传统检索评估中简单查询占主导、难以反映现实搜索复杂度的问题。通过构建具有语义深度和语境依赖的困难查询集合,它使学术界能够系统探究神经检索模型在理解多义性、处理隐含意图及跨域推理方面的局限。这种针对性设计推动了检索评估范式的演进,为建立更接近人类认知水平的评价体系提供了数据基础,显著促进了检索技术向深层次语义理解方向发展。
衍生相关工作
基于该数据集衍生的经典研究包括DL-HARD评估框架的建立与完善,多个国际顶级会议收录了以其为基准的神经检索模型对比研究。相关工作不仅提出了针对困难查询的专门化重排序算法,还催生了融合外部知识的检索增强技术。这些成果进一步推动了稠密检索、交互式检索等前沿方向的发展,并促使TREC等国际评测会议设立专门的深度学习检索赛道。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作