irds/msmarco-document_trec-dl-hard_fold2

Name: irds/msmarco-document_trec-dl-hard_fold2
Creator: irds
Published: 2023-01-05 03:40:28
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/msmarco-document_trec-dl-hard_fold2

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: '`msmarco-document/trec-dl-hard/fold2`' viewer: false source_datasets: ['irds/msmarco-document'] task_categories: - text-retrieval --- # Dataset Card for `msmarco-document/trec-dl-hard/fold2` The `msmarco-document/trec-dl-hard/fold2` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/msmarco-document#msmarco-document/trec-dl-hard/fold2). # Data This dataset provides: - `queries` (i.e., topics); count=10 - `qrels`: (relevance assessments); count=1,345 - For `docs`, use [`irds/msmarco-document`](https://huggingface.co/datasets/irds/msmarco-document) ## Usage ```python from datasets import load_dataset queries = load_dataset('irds/msmarco-document_trec-dl-hard_fold2', 'queries') for record in queries: record # {'query_id': ..., 'text': ...} qrels = load_dataset('irds/msmarco-document_trec-dl-hard_fold2', 'qrels') for record in qrels: record # {'query_id': ..., 'doc_id': ..., 'relevance': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @article{Mackie2021DlHard, title={How Deep is your Learning: the DL-HARD Annotated Deep Learning Dataset}, author={Iain Mackie and Jeffrey Dalton and Andrew Yates}, journal={ArXiv}, year={2021}, volume={abs/2105.07975} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} } ```

展示名称：`msmarco-document/trec-dl-hard/fold2` 网页查看器：禁用源数据集：['irds/msmarco-document'] 任务类别： - 文本检索 --- # `msmarco-document/trec-dl-hard/fold2` 数据集卡片本`msmarco-document/trec-dl-hard/fold2`数据集由[ir-datasets](https://ir-datasets.com/)工具包提供。如需了解该数据集的详细信息，请参阅[官方文档](https://ir-datasets.com/msmarco-document#msmarco-document/trec-dl-hard/fold2)。 # 数据集内容本数据集包含以下内容： - `queries`（即查询主题）：共计10条 - `qrels`（即相关性标注结果）：共计1345条如需获取文档数据，请使用 [`irds/msmarco-document`](https://huggingface.co/datasets/irds/msmarco-document) 数据集。 ## 使用方式 python from datasets import load_dataset queries = load_dataset('irds/msmarco-document_trec-dl-hard_fold2', 'queries') for record in queries: record # {'query_id': ..., 'text': ...} qrels = load_dataset('irds/msmarco-document_trec-dl-hard_fold2', 'qrels') for record in qrels: record # {'query_id': ..., 'doc_id': ..., 'relevance': ...} 请注意，调用`load_dataset`函数将自动下载该数据集（若数据集未公开，则会提供获取指引），并将数据转换为🤗数据集格式进行存储。 ## 引用信息 @article{Mackie2021DlHard, title={How Deep is your Learning: the DL-HARD Annotated Deep Learning Dataset}, author={Iain Mackie and Jeffrey Dalton and Andrew Yates}, journal={ArXiv}, year={2021}, volume={abs/2105.07975} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

msmarco-document/trec-dl-hard/fold2

数据集来源

来源：ir-datasets
原始数据集：irds/msmarco-document

数据内容

queries：查询主题，共10个
qrels：相关性评估，共1,345个
docs：文档数据，使用irds/msmarco-document数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/msmarco-document_trec-dl-hard_fold2, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/msmarco-document_trec-dl-hard_fold2, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ...}

引用信息

@article{Mackie2021DlHard, title={How Deep is your Learning: the DL-HARD Annotated Deep Learning Dataset}, author={Iain Mackie and Jeffrey Dalton and Andrew Yates}, journal={ArXiv}, year={2021}, volume={abs/2105.07975} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建高质量评测数据集对推动算法发展至关重要。msmarco-document/trec-dl-hard/fold2数据集源自ir-datasets项目，其核心构建方式基于MS MARCO文档集合的深度标注子集。该数据集通过严格的筛选流程，从原始MS MARCO文档语料中提取具有挑战性的查询-文档对，并采用专家标注方式对相关性进行多级评定。具体而言，构建过程涉及对TREC Deep Learning Track 2019和2020任务中困难查询的整理，形成包含10个查询和1345条相关性标注的评测子集，确保了数据在复杂检索场景下的代表性和评测价值。

使用方法

研究人员可通过Hugging Face数据集库便捷地调用该资源。使用过程首先需导入load_dataset函数，并指定数据集名称irds/msmarco-document_trec-dl-hard_fold2及相应数据子集标识。查询数据可通过'queries'参数加载，获取包含查询编号和文本的字典序列；相关性标注则通过'qrels'参数加载，得到查询-文档对及其相关性等级的三元组。实际应用中，需注意文档内容需从关联的irds/msmarco-document数据集独立获取，这种分离式设计既节约存储空间，又支持灵活的实验配置。加载后的数据可直接融入现有检索系统评测流程，为算法比较提供标准化测试环境。

背景与挑战

背景概述

信息检索领域在深度学习时代面临如何精准评估模型对复杂查询理解能力的核心问题。为此，微软研究院于2016年推出了MS MARCO数据集，旨在通过大规模真实网络查询与人工标注答案，推动机器阅读理解与文档检索技术的发展。在此基础上，研究团队于2021年构建了DL-HARD子集，专门针对具有挑战性的深层语义查询进行标注，其中`irds/msmarco-document_trec-dl-hard_fold2`作为其标准划分之一，为TREC深度学习赛道提供了严格的评估基准，显著促进了检索模型在复杂信息需求场景下的性能演进。

当前挑战

该数据集致力于解决复杂查询下的文档检索挑战，其核心在于模型需超越表层关键词匹配，深入理解多义词、隐含意图及上下文关联等语义鸿沟。构建过程中，挑战主要体现在标注质量的把控上：深层查询的答案往往具有主观性与多样性，需要专业标注者进行高成本、高一致性的相关性判断；同时，数据划分需确保评估的公平性与统计显著性，避免因查询样本过少或分布偏差导致模型评估失真。

常用场景

经典使用场景

在信息检索领域，深度神经网络模型的评估常面临挑战，尤其是针对复杂查询的检索性能。`irds/msmarco-document_trec-dl-hard_fold2`数据集作为TREC深度学习赛道的一部分，专门用于评估检索系统在处理困难查询时的表现。该数据集通过精心设计的查询和相关性标注，为研究者提供了一个标准化的测试平台，用于衡量模型在真实场景下的鲁棒性和准确性。其经典使用场景包括训练和验证检索模型，特别是在处理语义复杂、多层次的用户查询时，能够有效检验模型是否能够深入理解查询意图并返回高质量文档。

解决学术问题

该数据集主要解决了信息检索中针对困难查询的评估难题。传统检索数据集往往侧重于一般性查询，而忽略了深度、复杂的用户需求，导致模型在实际应用中出现性能瓶颈。通过提供专门标注的困难查询和相关性评估，该数据集帮助学术界系统性地研究检索模型在语义理解、上下文关联和文档排序方面的不足。其意义在于推动了检索技术向更深层次的智能化发展，促进了模型在复杂场景下的性能提升，为后续研究提供了可靠的基准和方向。

实际应用

在实际应用中，`irds/msmarco-document_trec-dl-hard_fold2`数据集被广泛用于搜索引擎和智能问答系统的优化。例如，商业搜索引擎公司利用该数据集测试其检索算法在处理用户复杂问题时的效果，从而改进排序策略和相关性反馈机制。此外，在学术和教育领域，该数据集支持开发更精准的文献检索工具，帮助用户快速定位高价值内容。通过模拟真实世界中的困难查询场景，该数据集助力技术团队构建更强大、适应性更强的信息检索系统，提升用户体验和效率。

数据集最近研究