five

irds/trec-robust04

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/trec-robust04
下载链接
链接失效反馈
官方服务:
资源简介:
`trec-robust04`数据集由`ir-datasets`包提供,包含528,155个文档、250个查询和311,410个相关性评估。该数据集用于文本检索任务,并被多个子数据集(如`trec-robust04_fold1`等)使用。

The `trec-robust04` dataset, provided by the `ir-datasets` package, contains 528,155 documents, 250 queries, and 311,410 relevance judgments. This dataset is designed for text retrieval tasks and is utilized by multiple sub-datasets such as `trec-robust04_fold1`.
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

trec-robust04

数据来源

ir-datasets提供。

数据内容

  • 文档 (docs): 共528,155篇。
  • 查询 (queries): 共250个。
  • 相关性评估 (qrels): 共311,410个。

数据使用

数据集被用于以下变体:

  • trec-robust04_fold1
  • trec-robust04_fold2
  • trec-robust04_fold3
  • trec-robust04_fold4
  • trec-robust04_fold5

数据加载示例

python from datasets import load_dataset

docs = load_dataset(irds/trec-robust04, docs) for record in docs: record # {doc_id: ..., text: ..., marked_up_doc: ...}

queries = load_dataset(irds/trec-robust04, queries) for record in queries: record # {query_id: ..., title: ..., description: ..., narrative: ...}

qrels = load_dataset(irds/trec-robust04, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{Voorhees2004Robust, title={Overview of the TREC 2004 Robust Retrieval Track}, author={Ellen Voorhees}, booktitle={TREC}, year={2004} }

搜集汇总
数据集介绍
main_image_url
构建方式
`trec-robust04`数据集由ir-datasets包提供,专为文本检索任务设计。该数据集构建于TREC 2004 Robust Retrieval Track的基础上,包含528,155篇文档、250个查询主题以及311,410条相关性评估数据。这些数据通过严格的筛选和标注流程,确保了数据集的高质量和广泛适用性。
特点
`trec-robust04`数据集的特点在于其丰富的文档数量和多样化的查询主题,涵盖了广泛的文本检索场景。数据集中的文档和查询均经过精心设计,能够有效支持信息检索系统的开发和评估。此外,数据集还提供了详细的相关性评估数据,为研究者和开发者提供了宝贵的参考依据。
使用方法
使用`trec-robust04`数据集时,可以通过Hugging Face的`datasets`库轻松加载。用户可以选择加载文档、查询或相关性评估数据,并通过简单的Python代码进行数据访问和处理。加载后的数据以🤗 Dataset格式存储,便于进一步的分析和模型训练。
背景与挑战
背景概述
`trec-robust04`数据集是信息检索领域的重要资源,由Ellen Voorhees等研究人员在2004年创建,作为TREC(Text REtrieval Conference)Robust Retrieval Track的一部分。该数据集旨在解决信息检索中的鲁棒性问题,特别是在面对多样化查询和文档时的检索效果。数据集包含528,155篇文档、250个查询以及311,410条相关性评估记录,广泛应用于信息检索模型的训练与评估。其影响力不仅体现在推动了检索算法的进步,还为后续研究提供了标准化的基准测试平台。
当前挑战
`trec-robust04`数据集的核心挑战在于解决信息检索中的鲁棒性问题,即如何在不同类型的查询和文档中保持一致的检索性能。具体而言,数据集的查询设计涵盖了广泛的语义多样性,这对模型的泛化能力提出了较高要求。此外,数据集的构建过程中也面临了文档预处理、相关性标注一致性以及大规模数据处理等技术难题。这些挑战不仅反映了信息检索领域的复杂性,也为研究者提供了优化算法和提升模型性能的重要方向。
常用场景
经典使用场景
在信息检索领域,`trec-robust04`数据集被广泛用于评估和优化文本检索系统的性能。该数据集包含超过50万篇文档和250个查询,以及31万多个相关性评估,为研究人员提供了一个丰富的实验平台。通过使用该数据集,研究者能够测试不同的检索算法,评估其在处理复杂查询时的鲁棒性和准确性。
实际应用
在实际应用中,`trec-robust04`数据集被广泛应用于搜索引擎的开发和优化。通过使用该数据集,企业能够测试和改进其搜索引擎在处理用户查询时的表现,特别是在面对模糊或不明确的查询时。此外,该数据集还被用于开发个性化推荐系统,帮助用户更快速地找到相关信息。
衍生相关工作
基于`trec-robust04`数据集,研究者们开发了多种改进的检索算法和模型。例如,一些研究利用该数据集提出了基于深度学习的检索模型,显著提高了检索系统的性能。此外,该数据集还被用于评估跨语言检索系统的效果,推动了多语言信息检索技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作