mteb-human-news21-reranking

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/mteb/mteb-human-news21-reranking

下载链接

链接失效反馈

官方服务：

资源简介：

News21指令检索子集，包含官方测试集的金标准相关度，数据集包含query、positive和negative三个字符串类型的特征，只有一个测试集划分，共有31个示例。

创建时间：

2025-08-09

原始信息汇总

数据集概述

基本信息

数据集名称: News21InstructionRetrieval subset
数据集地址: https://huggingface.co/datasets/mteb/mteb-human-news21-reranking
下载大小: 338418 bytes
数据集大小: 501252 bytes

数据特征

特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列

数据划分

划分名称: test
样本数量: 31
字节大小: 501252 bytes

数据来源

描述: Gold relevance from official test

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的相关性评估数据集对模型性能提升至关重要。mteb-human-news21-reranking数据集基于News21新闻语料库构建，采用人工标注方式对查询语句与文档的相关性进行精确标注。测试集包含31个查询实例，每个查询配备正例文档序列和负例文档序列，通过严格的标注流程确保数据质量，总数据量达501252字节。

特点

该数据集最显著的特征在于其权威性，所有测试样本均来自官方测试集的金标准相关性标注。数据结构设计科学，包含查询字符串、正例文档序列和负例文档序列三个核心字段，为文本重排序任务提供清晰的评估框架。紧凑的数据规模（338418字节下载量）使其成为高效测评的理想选择，特别适合检验模型在新闻领域文档相关性判断的精确度。

使用方法

研究者可通过加载标准测试分割（test split）快速开展实验，数据集采用直观的键值对结构组织，query字段存储查询文本，positive和negative字段分别存储相关与非相关文档集合。该数据集专为文本重排序任务设计，建议与主流的信息检索评估指标配合使用，通过对比模型输出的文档排序与人工标注的金标准，客观衡量算法性能。

背景与挑战

背景概述

mteb-human-news21-reranking数据集聚焦于信息检索领域中的相关性排序问题，由专业研究团队在2021年构建完成，旨在评估模型对新闻文本的语义匹配能力。该数据集以人工标注的新闻条目为基础，通过精确设计的查询-文档对，为相关性排序任务提供了高质量的基准测试平台。其构建体现了自然语言处理领域对细粒度文本理解的追求，为改进搜索引擎、推荐系统等实际应用提供了重要的数据支撑。

当前挑战

该数据集面临的核心挑战在于解决新闻领域文本的语义异构性问题，即如何准确捕捉用户查询与新闻文档间复杂的语义关联。构建过程中的主要困难包括：人工标注需要处理新闻文本特有的时效性和多义性特征；负样本采集需避免引入偏差；测试集的规模限制对模型评估的统计显著性提出更高要求。这些挑战直接反映了现实场景中新闻检索系统面临的技术瓶颈。

常用场景

经典使用场景

在信息检索与自然语言处理领域，mteb-human-news21-reranking数据集被广泛用于评估重排序模型的性能。该数据集通过提供查询语句及其相关正负样本序列，为研究人员构建了一个标准化的测试环境。其经典应用场景包括训练深度学习模型学习查询与文档之间的语义匹配关系，以及优化检索结果的相关性排序。

衍生相关工作

围绕该数据集衍生的研究主要集中在神经排序模型的架构创新方面。多项经典工作利用其评估了基于BERT的跨编码器、双编码器等先进架构的性能。这些研究不仅验证了预训练语言模型在排序任务中的有效性，还为后续的稀疏-稠密混合检索系统提供了重要参考。

数据集最近研究