mteb-human-robust04-reranking

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/mteb/mteb-human-robust04-reranking

下载链接

链接失效反馈

官方服务：

资源简介：

Robust04指令检索子集，包含官方测试中提取的黄金相关性数据，用于评估查询与其正例和负例之间的相关性。

创建时间：

2025-08-09

原始信息汇总

数据集概述

基本信息

数据集名称: Robust04InstructionRetrieval subset
数据集地址: https://huggingface.co/datasets/mteb/mteb-human-robust04-reranking
下载大小: 470113 bytes
数据集大小: 734954 bytes

数据集结构

特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
拆分:
- test:
  - 样本数量: 49
  - 数据大小: 734954 bytes

数据来源

描述: Gold relevance from official test.

搜集汇总

数据集介绍

构建方式

该数据集基于Robust04信息检索基准测试的官方评估数据构建，专注于文档重排序任务。研究人员从标准测试集中提取了49个查询及其相关文档对，每个查询对应一组正面相关文档和负面非相关文档序列，通过严格的评估协议确保数据质量。原始数据经过规范化处理，形成结构化的查询-文档对格式，为信息检索系统的鲁棒性评估提供可靠基准。

特点

数据集呈现典型的查询-文档重排序任务特征，包含精确标注的文档相关性等级。其核心价值在于采用官方测试集的黄金标准相关性判断，确保评估结果的权威性。紧凑的样本规模（49个查询）与精细的文档序列标注相结合，特别适合检验检索模型在对抗性场景下的鲁棒性能。数据字段设计简洁明晰，包含查询字符串、正面文档序列和负面文档序列三个关键维度。

使用方法

该数据集专为评估信息检索系统的重排序性能而设计，建议配合MTEB基准测试框架使用。典型应用场景包括：加载测试集后，将查询输入检索模型获取初始排序，继而采用重排序模型对返回的文档序列进行相关性调整。评估时需特别注意模型在区分正面相关文档与负面非相关文档方面的表现，相关指标如NDCG或MAP可作为主要评估依据。数据集的小规模特性使其适合作为补充测试集用于模型验证阶段。

背景与挑战

背景概述

mteb-human-robust04-reranking数据集是信息检索领域的重要基准之一，专注于文档重排序任务的研究。该数据集基于经典的TREC Robust04测试集构建，由信息检索领域的权威机构在21世纪初创建，旨在解决查询与文档相关性评估的核心问题。数据集通过人工标注的查询-文档对，为研究者提供了评估重排序算法的黄金标准，对推动检索模型鲁棒性研究产生了深远影响。其构建融合了信息检索与自然语言处理的前沿技术，成为衡量模型在真实场景下性能的关键工具。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，文档重排序任务需要模型精准捕捉查询与长文档间的细粒度语义关联，这对传统基于关键词的检索方法提出了严峻挑战；在构建过程层面，人工标注高质量的相关性标签需要耗费大量专业人力，且需解决标注者间一致性问题。数据集的稀疏性特征与查询表述的多样性，进一步增加了构建具有统计显著性的评估基准的难度。

常用场景

经典使用场景

在信息检索领域，mteb-human-robust04-reranking数据集被广泛用于评估和优化文档重排序模型的性能。该数据集通过提供查询语句及其相关的正负文档对，为研究人员构建了一个标准化的测试环境。经典使用场景包括比较不同神经排序模型在TREC Robust04测试集上的表现，以及验证模型在对抗性样本下的鲁棒性。

解决学术问题

该数据集有效解决了信息检索中两个关键学术问题：一是如何准确评估模型在真实场景下的文档排序能力，二是如何提升模型对噪声数据和对抗样本的鲁棒性。通过提供人工标注的金标准相关性判断，为研究社区建立了可靠的基准测试平台，显著推动了神经信息检索领域的方法创新和性能突破。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，包括基于BERT的跨编码器重排序模型、对比学习框架下的文档表示优化方法，以及面向对抗鲁棒性的检索模型增强技术。这些工作不仅推动了信息检索领域的发展，也为后续的TREC评测任务提供了重要技术参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集