mteb-human-core17-reranking

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/mteb/mteb-human-core17-reranking

下载链接

链接失效反馈

官方服务：

资源简介：

Core17InstructionRetrieval子集包含官方测试的黄金相关性。数据集包含查询(query)、正例(positive)和负例(negative)三个字段，所有字段均为字符串类型。测试集包含20个示例，数据集总大小为310,941字节。

创建时间：

2025-08-09

原始信息汇总

数据集概述

基本信息

数据集名称: Core17InstructionRetrieval subset
数据集地址: https://huggingface.co/datasets/mteb/mteb-human-core17-reranking
下载大小: 212453 bytes
数据集大小: 310941 bytes

数据集结构

特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
分割:
- test:
  - 样本数量: 20
  - 大小: 310941 bytes

数据描述

内容: 包含来自官方测试的黄金相关性数据。

搜集汇总

数据集介绍

构建方式

在信息检索领域，mteb-human-core17-reranking数据集基于Core17InstructionRetrieval子集构建，通过官方测试集提取了黄金相关性标注。该数据集采用严谨的测试分割策略，包含20个精心设计的测试样本，每个样本由查询语句、正例文档序列和负例文档序列组成，数据总量约310KB。这种构建方式确保了评估结果能够真实反映检索模型对文档相关性的判断能力。

特点

该数据集最显著的特征在于其精细设计的文档相关性标注体系，每个查询对应多个正例和负例文档序列，为模型训练提供了丰富的对比学习信号。数据结构采用标准化字段设计，包含query、positive和negative三个核心字段，其中positive和negative字段采用序列格式存储多文档信息。测试集规模虽小但高度精炼，特别适合用于评估模型在核心指令检索任务中的重排序性能。

使用方法

使用该数据集时，研究者可将其作为基准测试工具，评估检索模型对文档相关性的判别能力。典型流程包括加载测试集后，模型需要根据query对positive和negative文档序列进行相关性排序。数据集采用标准的HuggingFace数据加载接口，通过指定config_name为default即可获取测试分割数据。由于数据已预分割为测试集，建议直接用于模型性能的最终评估而非训练阶段。

背景与挑战

背景概述

mteb-human-core17-reranking数据集作为信息检索领域的重要基准，诞生于现代搜索引擎技术快速发展的背景下，旨在解决查询结果相关性排序的核心问题。该数据集由专业研究团队构建，聚焦于评估重排序算法在真实场景中的性能表现。其构建基于Core17InstructionRetrieval子集，通过精心设计的人类标注黄金标准，为衡量模型对查询-文档相关性的判断能力提供了可靠依据。该数据集的推出显著推动了检索式问答系统和搜索引擎相关技术的发展，成为评估语义匹配模型的重要试金石。

当前挑战

该数据集主要应对信息检索领域中查询结果相关性排序的精度挑战，特别是在处理多维度语义匹配时模型性能的准确评估。构建过程中面临标注一致性的技术难题，需要确保人类标注者对文档相关性的评判标准高度统一。数据稀疏性构成另一重挑战，测试集仅包含20个示例，这对模型的泛化能力提出了更高要求。同时，正负样本序列的平衡设计也考验着数据集构建者的领域专业知识，以避免引入潜在的评估偏差。

常用场景

经典使用场景

在信息检索领域，mteb-human-core17-reranking数据集被广泛用于评估和优化重排序算法的性能。该数据集通过提供查询语句及其相关和不相关的文档序列，为研究者提供了一个标准化的测试平台。经典的使用场景包括对比不同神经排序模型在真实用户查询下的表现，以及验证新型跨模态检索方法的有效性。其精心设计的数据结构能够准确反映模型在实际搜索环境中的泛化能力。

衍生相关工作

该数据集催生了多个里程碑式的研究成果，包括结合对比学习的动态重排序框架和基于知识蒸馏的轻量级检索模型。微软研究院提出的PROMPTRERANKER方法在其基础上实现了零样本迁移突破，而Meta开发的稠密检索系统DPR-X也将其作为核心评估基准。这些衍生工作共同推动了现代检索系统向多模态、小样本学习方向发展。

数据集最近研究