C-MTEB/T2Retrieval

Name: C-MTEB/T2Retrieval
Creator: C-MTEB
Published: 2023-07-28 10:11:06
License: 暂无描述

Hugging Face2023-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/C-MTEB/T2Retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: corpus path: data/corpus-* - split: queries path: data/queries-* dataset_info: features: - name: id dtype: string - name: text dtype: string splits: - name: corpus num_bytes: 265607316 num_examples: 118605 - name: queries num_bytes: 1000130 num_examples: 22812 download_size: 157606535 dataset_size: 266607446 --- # Dataset Card for "T2Retrieval" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：default 数据文件： - 数据集拆分（split）：语料库（corpus），路径：data/corpus-* - 数据集拆分（split）：查询（queries），路径：data/queries-* 数据集信息：特征： - 名称：id，数据类型：字符串 - 名称：text，数据类型：字符串拆分集： - 名称：语料库（corpus），字节数：265607316，样本数量：118605 - 名称：查询（queries），字节数：1000130，样本数量：22812 下载大小：157606535，数据集总大小：266607446 --- # 「T2Retrieval」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

C-MTEB

原始信息汇总

数据集概述

配置信息

默认配置 (config_name: default)
- 数据文件路径
  - 语料库 (split: corpus): data/corpus-*
  - 查询 (split: queries): data/queries-*

数据集信息

特征
- id: 数据类型为字符串 (dtype: string)
- text: 数据类型为字符串 (dtype: string)
分割信息
- 语料库 (split: corpus)
  - 字节数: 265607316
  - 示例数: 118605
- 查询 (split: queries)
  - 字节数: 1000130
  - 示例数: 22812
下载大小: 157606535
数据集大小: 266607446

搜集汇总

数据集介绍

构建方式

T2Retrieval数据集是C-MTEB基准测试中用于评估文本到文本检索任务的关键资源。该数据集通过收集海量文本对构建而成，包含语料库（corpus）和查询集（queries）两大核心组成部分。语料库涵盖118,605个文本样本，查询集则包含22,812个查询实例，每个样本均以唯一标识符（id）和原始文本（text）的形式存储。数据文件采用分片（shard）方式组织，便于分布式加载与处理，体现了对大规模检索场景下数据高效管理的考量。

特点

该数据集具有鲜明的结构特性：首先，语料库与查询集的分离设计精准模拟了真实检索场景，用户可基于查询从大规模语料中检索相关文本；其次，数据规模庞大，语料库样本数达11.8万，查询样本超2.2万，为深度学习模型提供了充足的训练与评估素材；此外，数据集以字符串格式存储文本，保持了内容的原始性与灵活性，适配多种文本检索模型的输入需求，尤其适用于中文语境下的密集检索与语义匹配任务。

使用方法

使用T2Retrieval数据集时，用户可通过HuggingFace的datasets库便捷加载。指定config_name为'default'后，利用split参数分别获取语料库与查询集：例如，'corpus'分片用于构建检索索引，'queries'分片作为待检索的查询样本。每个样本的'id'字段可辅助结果映射，'text'字段则直接用于编码与相似度计算。数据集支持按需分片读取，适合大规模检索系统的开发与评估，用户可在此基础上实现文本检索模型的训练、调优与性能验证。

背景与挑战

背景概述

在自然语言处理领域，文本检索作为信息获取的核心技术，长期面临跨语言、跨领域泛化能力不足的瓶颈。C-MTEB/T2Retrieval数据集由多语言文本嵌入基准（C-MTEB）项目团队构建，旨在评估和推动文本检索模型在中文环境下的性能。该数据集创建于2023年，汇聚了来自百度、阿里巴巴等机构的研究力量，聚焦于解决中文检索任务中标注数据稀缺、语义匹配复杂等核心问题。作为C-MTEB基准的重要组成部分，T2Retrieval通过提供多样化的查询与语料库，为模型在短文本匹配、长文档检索等场景下的鲁棒性测试奠定了坚实基础，对中文信息检索领域的研究进展产生了深远影响。

当前挑战

T2Retrieval数据集所应对的领域挑战主要在于中文文本检索中语义歧义性与上下文依赖性的复杂交织——例如一词多义现象与领域术语的精准匹配，这要求模型具备深层的语言理解能力。构建过程中，团队面临多重困难：首先，需从海量互联网数据中筛选出高质量、低噪声的文本对，确保语料库的纯净度；其次，标注人员需对查询与文档的相关性进行精细判断，以覆盖短文本搜索、长文档定位等不同检索粒度；最后，数据集的规模与多样性平衡成为难题——需在11.8万条语料与2.2万条查询中兼顾覆盖广泛主题与维持语义一致性，这对数据采样策略与质量控制流程提出了严苛要求。

常用场景

经典使用场景

在信息检索与自然语言处理领域，T2Retrieval数据集作为C-MTEB中文嵌入基准的核心组成部分，被广泛用于评估和训练文本检索模型。该数据集包含逾11万条语料库条目和超过2.2万个查询样本，覆盖多样化的中文文本场景，使其成为衡量模型从大规模语料中精准定位相关文档能力的经典基准。研究者通常利用其进行稠密检索与稀疏检索方法的对比实验，以验证模型在语义匹配上的鲁棒性与效率。

衍生相关工作

基于T2Retrieval数据集，衍生出多项标志性工作，如针对中文嵌入模型的跨任务对比研究，以及融合对比学习与负样本挖掘的检索优化算法。经典工作包括C-MTEB基准的构建，该基准整合了多个中文检索任务，推动了如BERT-whitening和SimCSE等模型在中文场景的适配。此外，该数据集还催生了面向领域自适应检索的迁移学习方法，为后续如Dense Passage Retrieval在中文领域的本土化改进奠定了实证基础。

数据集最近研究