five

irds/msmarco-passage_trec-dl-hard_fold1

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/msmarco-passage_trec-dl-hard_fold1
下载链接
链接失效反馈
官方服务:
资源简介:
`msmarco-passage/trec-dl-hard/fold1`数据集由ir-datasets包提供,主要用于文本检索任务。该数据集包含10个查询(queries)和1,072个相关性评估(qrels)。文档(docs)需要使用另一个数据集irds/msmarco-passage。数据集的使用示例代码展示了如何加载查询和相关性评估数据。引用信息包括两篇相关论文,分别介绍了DL-HARD注释深度学习数据集和MS MARCO数据集。
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

msmarco-passage/trec-dl-hard/fold1

数据集来源

  • 来源:ir-datasets
  • 原始数据集:irds/msmarco-passage

数据内容

  • queries(查询):10条
  • qrels(相关性评估):1,072条
  • docs(文档):使用irds/msmarco-passage数据集

数据使用示例

python from datasets import load_dataset

queries = load_dataset(irds/msmarco-passage_trec-dl-hard_fold1, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/msmarco-passage_trec-dl-hard_fold1, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ...}

引用信息

@article{Mackie2021DlHard, title={How Deep is your Learning: the DL-HARD Annotated Deep Learning Dataset}, author={Iain Mackie and Jeffrey Dalton and Andrew Yates}, journal={ArXiv}, year={2021}, volume={abs/2105.07975} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,为评估深度神经网络检索模型的鲁棒性与泛化能力,研究者构建了MS MARCO Passage语料库的TREC DL Hard子集。该数据集通过从原始MS MARCO Passage数据中精心挑选具有挑战性的查询与文档对,并依据专家标注的相关性判断(qrels)形成。fold1作为该子集的一个划分,包含10个查询主题及1,072条相关性标注,旨在模拟真实检索场景中难以处理的案例,为模型性能的极限测试提供标准化基准。
特点
该数据集的核心特点在于其聚焦于“硬样本”的检索挑战。相较于常规检索数据集,fold1中的查询与文档对经过严格筛选,凸显了语义歧义、长尾分布及噪声干扰等复杂因素。每个查询均关联多级相关性评分(relevance),支持细粒度评估。同时,数据集规模精简,便于快速迭代实验,却保留了真实场景的多样性,是验证检索模型在困难条件下表现的关键资源。
使用方法
使用该数据集时,可通过Hugging Face的datasets库直接加载。调用load_dataset函数指定数据集标识符'irds/msmarco-passage_trec-dl-hard_fold1',并选择'queries'或'qrels'子集以获取查询文本或相关性标注。返回的记录包含query_id、text及relevance等字段,便于构建检索流水线。注意首次加载需联网下载数据,且文档部分需引用自irds/msmarco-passage主数据集。
背景与挑战
背景概述
在信息检索领域,深度学习模型的迅猛发展对评估数据集的挑战性提出了更高要求。为应对这一需求,Mackie、Dalton与Yates于2021年构建了DL-HARD数据集,其子集msmarco-passage/trec-dl-hard/fold1由ir-datasets团队整合发布,聚焦于MS MARCO Passage语料库中高难度查询的检索评估。该数据集包含10个精心筛选的查询主题及1,072条相关性判断,旨在揭示现有检索模型在复杂语义理解与噪声文本环境下的性能瓶颈。作为TREC DL-HARD评测任务的组成部分,它推动了检索系统从简单匹配向深层语义推断的跨越,为研究者检验模型鲁棒性提供了严苛的基准。
当前挑战
该数据集面临的挑战首先源于其核心领域问题:如何有效评估检索模型在极端困难查询上的泛化能力。传统检索基准多关注简单词汇匹配,而DL-HARD中的查询涉及多义词、隐喻及上下文依赖,对模型的语义消歧与知识推理构成显著压力。其次,构建过程中存在标注一致性难题——仅有少量查询(10个)却需覆盖多样化的复杂场景,使得相关性判断的客观性高度依赖标注者专业知识;同时,从MS MARCO海量语料中筛选“硬样本”需平衡代表性、难度与资源消耗,导致数据规模受限,难以全面反映长尾分布下的检索困难。
常用场景
经典使用场景
在信息检索与自然语言处理领域,数据集'irds/msmarco-passage_trec-dl-hard_fold1'作为MS MARCO Passage语料库的精炼子集,专为评估深度检索模型在复杂查询下的鲁棒性而设计。其经典场景聚焦于文本检索任务的挑战性测试,涵盖10个高难度查询及逾千条相关性判断,常被用于衡量模型在面对模糊、多义或信息稀疏查询时的表现。研究者通过此数据集验证排序算法在极端条件下的泛化能力,推动检索系统从传统词匹配向语义理解的演进。
实际应用
在实际应用中,该数据集助力构建面向特定领域的高精度检索系统,例如法律文书检索、医学文献挖掘或智能客服问答。企业可利用其验证搜索引擎在长尾查询下的响应质量,优化推荐系统对模糊用户意图的捕捉能力。此外,数据集的硬查询特性使其成为训练对话式AI的基石,帮助模型在信息匮乏场景下维持检索相关性与用户满意度。
衍生相关工作
该数据集衍生了多项经典工作,包括Mackie等人提出的DL-HARD框架,系统分析了深度学习模型在困难检索任务上的失效模式。后续研究如基于对比学习的硬负样本采样策略,以及融合外部知识的排序模型,均以此数据集为关键验证基准。此外,其与MS MARCO原始语料的结合,推动了多任务学习在检索与问答领域的交叉创新,成为评估检索增强生成(RAG)流水线鲁棒性的重要工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作