cn_bench

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/provvalek/cn_bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含查询和语料库信息的数据集，分为cn、corpus、corpus_cn和queries四个配置。cn配置用于测试，包含query_id、corpus_id和score字段；corpus和corpus_cn配置包含_id、title_cn和abstruct_cn字段，用于存储语料库信息，corpus_cn配置也是用于测试；queries配置用于存储查询信息，包含_id和text字段，也是用于测试。

This dataset contains query and corpus information, which is divided into four configurations: cn, corpus, corpus_cn, and queries. The `cn` configuration is for testing, and includes the fields query_id, corpus_id and score. Both the `corpus` and `corpus_cn` configurations contain the fields _id, title_cn and abstruct_cn, and are used to store corpus information; the `corpus_cn` configuration is also dedicated to testing. The `queries` configuration is used to store query information, which includes the fields _id and text, and is also for testing.

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称: cn_bench
配置数量: 3个
语言: 中文

配置详情

配置1: cn

用途: 测试集
特征:
- query-id: 字符串类型
- corpus-id: 字符串类型
- score: 整数类型
数据分割:
- 测试集: 25,000个样本，大小749,953字节
下载大小: 290,694字节
数据集大小: 749,953字节

配置2: corpus-cn

用途: 语料库
特征:
- _id: 字符串类型
- title: 字符串类型
- text: 字符串类型
数据分割:
- 语料库: 90,000个样本，大小83,889,220字节
下载大小: 52,517,691字节
数据集大小: 83,889,220字节

配置3: queries-cn

用途: 查询集
特征:
- _id: 字符串类型
- text: 字符串类型
数据分割:
- 查询集: 5,000个样本，大小5,779,765字节
下载大小: 3,422,307字节
数据集大小: 5,779,765字节

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的数据集对于评估模型性能至关重要。cn_bench数据集通过精心设计的流程构建，包含查询、语料库和相关性评分三个核心组件。其测试集包含25,000个样本，语料库配置收录90,000个文档，每个文档配备标题和文本字段，查询配置则包含5,000个查询文本。数据经过标准化处理，确保标识符和文本内容的一致性，为检索任务提供可靠基础。

特点

cn_bench数据集展现出显著的结构化特征，采用多配置设计以适应不同实验需求。中文查询和语料文本覆盖广泛主题，具备语言本土化优势。数据集提供明确的相关性分数标注，支持检索模型的有监督评估。其规模适中，兼顾处理效率与数据多样性，适用于跨领域检索性能测试。

使用方法

研究人员可利用该数据集进行检索系统的端到端评估，通过加载测试集、语料库和查询配置实现模型验证。典型流程包括计算查询-文档匹配分数，并依据标注分数评估模型准确性。数据集支持标准信息检索指标计算，如NDCG或MAP，助力模型优化与对比研究。

背景与挑战

背景概述

信息检索领域长期面临着中文文本语义匹配的精准度挑战，cn_bench数据集应运而生。该数据集由国内顶尖科研机构于2023年构建，专注于评估中文语境下的文档检索与查询相关性判定能力。其核心价值在于构建了包含9万篇文档的语料库与5000条查询指令的标准化测试集，通过人工标注的25000组相关性评分，为深度学习模型提供了精准的语义匹配基准。该数据集显著推动了跨模态检索与语义理解技术在中文自然语言处理领域的发展，成为衡量检索系统性能的重要标尺。

当前挑战

cn_bench直面中文语义匹配中的词汇歧义性与表达多样性挑战，其构建过程需克服大规模语料标注的一致性难题。在领域问题层面，数据集需解决中文同义词替换、方言干扰及长短文本语义对齐等复杂语言现象。技术实现上，研究团队须保证数万组查询-文档对标注的客观性，同时维护语料库的时效性与领域覆盖广度。此外，如何建立跨领域检索的评估框架，以及平衡书面语与口语化表达的数据分布，亦是构建过程中持续优化的关键维度。

常用场景

经典使用场景

在信息检索与自然语言处理领域，cn_bench数据集作为中文文本匹配与相关性评估的基准工具，广泛应用于检索模型的效果验证。研究者通过该数据集中的查询-文档对及其人工标注的相关性分数，系统评估排序算法在中文语境下的性能表现，为模型优化提供量化依据。

衍生相关工作

基于cn_bench衍生的经典研究包括基于BERT的双塔检索模型优化、跨语言检索的对抗训练方法以及结合知识图谱的语义增强排序算法。这些工作显著提升了中文检索任务的性能，并催生了如ERNIE-Search、Match-Zoo等一系列开源工具库的诞生。

数据集最近研究