irds/trec-robust04_fold5

Name: irds/trec-robust04_fold5
Creator: irds
Published: 2023-01-05 03:53:50
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/trec-robust04_fold5

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: '`trec-robust04/fold5`' viewer: false source_datasets: ['irds/trec-robust04'] task_categories: - text-retrieval --- # Dataset Card for `trec-robust04/fold5` The `trec-robust04/fold5` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/trec-robust04#trec-robust04/fold5). # Data This dataset provides: - `queries` (i.e., topics); count=50 - `qrels`: (relevance assessments); count=63,841 - For `docs`, use [`irds/trec-robust04`](https://huggingface.co/datasets/irds/trec-robust04) ## Usage ```python from datasets import load_dataset queries = load_dataset('irds/trec-robust04_fold5', 'queries') for record in queries: record # {'query_id': ..., 'text': ...} qrels = load_dataset('irds/trec-robust04_fold5', 'qrels') for record in qrels: record # {'query_id': ..., 'doc_id': ..., 'relevance': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @inproceedings{Voorhees2004Robust, title={Overview of the TREC 2004 Robust Retrieval Track}, author={Ellen Voorhees}, booktitle={TREC}, year={2004} } @inproceedings{Huston2014ACO, title={A Comparison of Retrieval Models using Term Dependencies}, author={Samuel Huston and W. Bruce Croft}, booktitle={CIKM}, year={2014} } ```

--- 展示名称：`trec-robust04/fold5` 数据集查看器：未启用源数据集：['irds/trec-robust04'] 任务类别： - 文本检索 --- # `trec-robust04/fold5` 数据集卡片本`trec-robust04/fold5` 数据集由 [ir-datasets](https://ir-datasets.com/) 专业工具包开发维护并提供。如需深入了解该数据集的相关细节，请查阅其 [官方文档](https://ir-datasets.com/trec-robust04#trec-robust04/fold5)。 # 数据集内容本数据集涵盖以下数据内容： - `查询集`（亦称主题集）：总计50条 - `qrels`（相关性评估标注）：总计63,841条 - 如需获取完整文档集，请调用 [`irds/trec-robust04`](https://huggingface.co/datasets/irds/trec-robust04) 数据集。 ## 使用方法 python from datasets import load_dataset # 加载查询集 queries = load_dataset('irds/trec-robust04_fold5', 'queries') for record in queries: # 单条查询记录格式为：{'query_id': ..., 'text': ...} record # 加载相关性标注集 qrels = load_dataset('irds/trec-robust04_fold5', 'qrels') for record in qrels: # 单条标注记录格式为：{'query_id': ..., 'doc_id': ..., 'relevance': ...} record 请注意，调用`load_dataset`函数将自动下载该数据集（若数据集未对外开放，则会提供获取权限的相关指引），并将数据转换为🤗 Dataset格式进行本地存储。 ## 引用信息 @inproceedings{Voorhees2004Robust, title={Overview of the TREC 2004 Robust Retrieval Track}, author={Ellen Voorhees}, booktitle={TREC}, year={2004} } @inproceedings{Huston2014ACO, title={A Comparison of Retrieval Models using Term Dependencies}, author={Samuel Huston and W. Bruce Croft}, booktitle={CIKM}, year={2014} }

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

trec-robust04/fold5

数据来源

原始数据集：irds/trec-robust04

数据内容

queries（查询）：50条
qrels（相关性评估）：63,841条
docs（文档）：使用irds/trec-robust04数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/trec-robust04_fold5, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/trec-robust04_fold5, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ...}

引用信息

@inproceedings{Voorhees2004Robust, title={Overview of the TREC 2004 Robust Retrieval Track}, author={Ellen Voorhees}, booktitle={TREC}, year={2004} } @inproceedings{Huston2014ACO, title={A Comparison of Retrieval Models using Term Dependencies}, author={Samuel Huston and W. Bruce Croft}, booktitle={CIKM}, year={2014} }

搜集汇总

数据集介绍

构建方式

在信息检索研究领域，TREC Robust Track 2004 数据集作为评估检索系统稳健性的基准，其子集 `trec-robust04/fold5` 的构建遵循了严谨的学术规范。该数据集源自 `irds/trec-robust04` 主数据集，通过预设的折叠划分策略生成，专门用于五折交叉验证中的第五折。构建过程中，研究人员从原始文档集合中提取了 50 个查询主题，并基于专家标注生成了 63,841 条相关性判断，确保了数据在查询分布和相关性评估上的代表性与一致性。文档部分则直接引用主数据集，保持了数据源的完整性与可比性。

特点

该数据集的核心特点体现在其专注于检索系统的稳健性评估。查询集合包含 50 个精心设计的主题，这些主题往往具有歧义性或挑战性，旨在测试检索模型在不同语境下的性能。相关性判断数量达到 63,841 条，提供了密集且可靠的真值标注，支持细致的量化分析。作为交叉验证的一折，其结构便于与其余四折数据进行组合或对比，为研究检索模型的泛化能力与稳定性提供了标准化框架。数据集严格遵循 TREC 传统，格式规范，确保了实验的可重复性与结果的公正比较。

使用方法

使用该数据集时，研究者可通过 Hugging Face 的 `datasets` 库便捷加载。具体操作是调用 `load_dataset` 函数，分别指定 `'queries'` 和 `'qrels'` 配置以获取查询和相关性判断数据。查询数据包含查询标识与文本，相关性判断则关联查询标识、文档标识及相关度等级。需要注意的是，文档内容需从主数据集 `irds/trec-robust04` 独立加载，以实现数据的模块化访问。这种分离设计鼓励用户在统一平台上高效获取结构化数据，并直接应用于索引构建、检索模型训练及系统评估等一系列信息检索实验流程中。

背景与挑战

背景概述

在信息检索领域，TREC Robust Track 2004数据集由美国国家标准与技术研究院（NIST）于2004年主导创建，核心研究人员包括Ellen Voorhees等。该数据集旨在解决传统检索系统在复杂查询场景下的鲁棒性问题，特别是针对模糊或歧义性查询的稳定性挑战。通过提供大量查询及其相关性评估，它推动了检索模型在真实环境中的性能优化，对后续研究如查询扩展、语义匹配等技术产生了深远影响，成为评估信息检索系统鲁棒性的重要基准。

当前挑战

该数据集所解决的领域问题聚焦于信息检索中的鲁棒性挑战，即如何提升检索系统在面对模糊、歧义或复杂查询时的稳定性和准确性。构建过程中的挑战包括：大规模文档与查询的精准对齐，确保相关性评估的客观性和一致性；以及数据分割与折叠（如fold5）的设计，需平衡训练与测试集的代表性，避免偏差影响模型泛化能力。这些挑战促使研究者开发更精细的评估方法和数据预处理技术。

常用场景

经典使用场景

在信息检索领域，TREC Robust04数据集作为评估检索系统鲁棒性的基准，其fold5子集常用于交叉验证实验。研究者利用该数据集中的50个查询主题和对应的相关性评估，模拟真实检索场景下的查询变体与文档匹配过程。通过构建检索模型，系统性地测试算法在不同查询难度下的性能稳定性，从而优化排序策略与相关性反馈机制。这一经典场景为检索模型的泛化能力提供了严谨的实证基础。

解决学术问题

该数据集主要解决了信息检索中查询鲁棒性评估的核心难题。传统检索模型在面对歧义性、模糊性或表述差异的查询时，性能往往出现显著波动。TREC Robust04通过精心设计的困难查询集合，促使研究者探索术语依赖建模、查询扩展及语义匹配等前沿技术。其意义在于推动了检索系统从单一性能优化向稳定性与泛化能力并重的范式转变，为后续鲁棒性研究设立了标准化的评估框架。

衍生相关工作

围绕该数据集衍生的经典工作包括术语依赖模型比较研究、基于伪相关反馈的鲁棒性优化以及神经检索架构的验证。例如，Huston与Croft在CIKM 2014发表的论文系统对比了多种依赖建模方法在Robust04上的表现；后续研究则进一步探索了基于Transformer的密集检索模型在此数据集上的适应性。这些工作共同深化了对查询复杂性建模的理解，并促进了跨领域检索技术的融合与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集