five

cn_reranking_bench

收藏
Hugging Face2025-10-25 更新2025-10-26 收录
下载链接:
https://huggingface.co/datasets/matvey22122/cn_reranking_bench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含四个配置:语料库(corpus)、查询相关性(qrels)、查询(queries)和顶部排名(top_ranked)。语料库配置包含文档的ID、文本和标题。查询相关性配置包含查询ID、语料库ID和分数。查询配置包含查询的ID和文本。顶部排名配置包含查询ID和一系列语料库ID,代表基于查询的排名。数据集的各个部分分别存储在不同的文件中。
创建时间:
2025-10-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: cn_reranking_bench
  • 数据来源: Hugging Face数据集平台

配置结构

1. 语料库配置 (corpus)

  • 数据特征:
    • id (字符串类型)
    • text (字符串类型)
    • title (字符串类型)
  • 数据规模:
    • 样本数量: 231,044条
    • 数据集大小: 185,088,107字节
    • 下载大小: 116,114,605字节

2. 查询关联配置 (qrels)

  • 数据特征:
    • query-id (字符串类型)
    • corpus-id (字符串类型)
    • score (整数类型)
  • 数据规模:
    • 样本数量: 265,940条
    • 数据集大小: 7,947,207字节
    • 下载大小: 2,528,390字节

3. 查询配置 (queries)

  • 数据特征:
    • id (字符串类型)
    • text (字符串类型)
  • 数据规模:
    • 样本数量: 5,000条
    • 数据集大小: 5,748,933字节
    • 下载大小: 3,417,605字节

4. 顶级排名配置 (top_ranked)

  • 数据特征:
    • query-id (字符串类型)
    • corpus-ids (字符串列表类型)
  • 数据规模:
    • 样本数量: 4,821条
    • 数据集大小: 2,966,662字节
    • 下载大小: 2,066,787字节

文件结构

  • 语料库文件: corpus/corpus-*
  • 查询关联文件: qrels/qrels-*
  • 查询文件: queries/queries-*
  • 顶级排名文件: top_ranked/top_ranked-*
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建高质量的数据集对于评估重排序模型的性能至关重要。cn_reranking_bench数据集通过整合四个核心配置来构建:corpus包含超过23万条文本条目,每条记录均配有唯一标识符、标题和正文内容;queries配置提供了5000条查询语句,用于模拟真实搜索场景;qrels配置则定义了查询与文档之间的相关性评分,涵盖26万多个标注实例;top_ranked配置进一步收录了预排序的候选文档列表,为模型训练与评估提供结构化基础。
特点
该数据集在中文信息检索任务中展现出显著的专业性,其语料规模庞大且标注精细,确保了数据的代表性和多样性。每个配置均采用标准化特征设计,例如corpus的文本与标题分离结构便于多维度分析,qrels的整数评分机制支持精准的相关性度量。数据集分割清晰,各配置间通过统一标识符实现无缝关联,既支持端到端的重排序流程验证,也为跨模态检索研究提供了可靠基准。
使用方法
研究人员可依据具体任务需求灵活调用数据集的不同配置。初始阶段需加载corpus作为文档库,结合queries模拟查询输入;通过解析qrels中的相关性标注,可训练或评估重排序算法的准确性。进阶应用中,top_ranked配置能直接提供预筛选的候选集,加速模型迭代过程。所有数据文件均采用分块存储格式,支持流式读取与分布式处理,确保大规模实验的高效执行。
背景与挑战
背景概述
在信息检索领域,重排序技术作为提升检索结果精度的关键环节,近年来受到学术界与工业界的广泛关注。cn_reranking_bench数据集应运而生,专为中文文本重排序任务设计,其构建融合了大规模语料库与精准查询-文档关联标注。该数据集通过结构化配置涵盖语料文本、查询语句及相关性评分,为探索语义匹配与排序优化提供了标准化实验平台,显著推动了跨语言检索模型在中文场景下的适应性研究。
当前挑战
中文重排序任务面临语义粒度刻画与语境歧义消解的双重挑战,需解决多义词动态表征与长文本依赖建模等核心问题。数据集构建过程中,需克服中文分词复杂性带来的标注一致性难题,同时平衡领域覆盖广度与标注质量间的矛盾。此外,高效整合异构数据源并确保查询-文档对的相关性评判客观性,亦是保障基准可靠性的关键制约因素。
常用场景
经典使用场景
在信息检索领域,cn_reranking_bench数据集作为中文重排序任务的标准基准,其核心应用场景在于评估和优化检索系统对候选文档的精细排序能力。该数据集通过提供大规模查询-文档对及其相关性标注,使得研究者能够系统测试各类重排序算法在真实中文语境下的性能表现,尤其关注模型对语义相关性的精准捕捉与排序效率的平衡。
解决学术问题
该数据集有效解决了信息检索研究中两个关键挑战:一是填补了中文领域缺乏标准化重排序评估基准的空白,为跨模型性能比较提供可靠依据;二是通过构建多维度相关性标注体系,助力研究者深入探究语义匹配、查询意图理解等核心问题,显著推动了神经信息检索模型在中文场景下的理论创新与方法演进。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,包括基于预训练语言模型的动态交互式重排序架构、融合多粒度语义特征的层次化匹配网络,以及针对长文本优化的注意力机制改进方案。这些成果不仅丰富了重排序技术的方法体系,更催生了面向医疗、金融等垂直领域的专用检索系统开发,形成了持续演进的技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作