C-MTEB/T2Retrieval
收藏Hugging Face2023-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/C-MTEB/T2Retrieval
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: corpus
path: data/corpus-*
- split: queries
path: data/queries-*
dataset_info:
features:
- name: id
dtype: string
- name: text
dtype: string
splits:
- name: corpus
num_bytes: 265607316
num_examples: 118605
- name: queries
num_bytes: 1000130
num_examples: 22812
download_size: 157606535
dataset_size: 266607446
---
# Dataset Card for "T2Retrieval"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
配置项:
- 配置名称:default
数据文件:
- 数据集拆分(split):语料库(corpus),路径:data/corpus-*
- 数据集拆分(split):查询(queries),路径:data/queries-*
数据集信息:
特征:
- 名称:id,数据类型:字符串
- 名称:text,数据类型:字符串
拆分集:
- 名称:语料库(corpus),字节数:265607316,样本数量:118605
- 名称:查询(queries),字节数:1000130,样本数量:22812
下载大小:157606535,数据集总大小:266607446
---
# 「T2Retrieval」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
C-MTEB
原始信息汇总
数据集概述
配置信息
- 默认配置 (
config_name: default)- 数据文件路径
- 语料库 (
split: corpus):data/corpus-* - 查询 (
split: queries):data/queries-*
- 语料库 (
- 数据文件路径
数据集信息
-
特征
id: 数据类型为字符串 (dtype: string)text: 数据类型为字符串 (dtype: string)
-
分割信息
- 语料库 (
split: corpus)- 字节数: 265607316
- 示例数: 118605
- 查询 (
split: queries)- 字节数: 1000130
- 示例数: 22812
- 语料库 (
-
下载大小: 157606535
-
数据集大小: 266607446
搜集汇总
数据集介绍

构建方式
T2Retrieval数据集是C-MTEB基准测试中用于评估文本到文本检索任务的关键资源。该数据集通过收集海量文本对构建而成,包含语料库(corpus)和查询集(queries)两大核心组成部分。语料库涵盖118,605个文本样本,查询集则包含22,812个查询实例,每个样本均以唯一标识符(id)和原始文本(text)的形式存储。数据文件采用分片(shard)方式组织,便于分布式加载与处理,体现了对大规模检索场景下数据高效管理的考量。
特点
该数据集具有鲜明的结构特性:首先,语料库与查询集的分离设计精准模拟了真实检索场景,用户可基于查询从大规模语料中检索相关文本;其次,数据规模庞大,语料库样本数达11.8万,查询样本超2.2万,为深度学习模型提供了充足的训练与评估素材;此外,数据集以字符串格式存储文本,保持了内容的原始性与灵活性,适配多种文本检索模型的输入需求,尤其适用于中文语境下的密集检索与语义匹配任务。
使用方法
使用T2Retrieval数据集时,用户可通过HuggingFace的datasets库便捷加载。指定config_name为'default'后,利用split参数分别获取语料库与查询集:例如,'corpus'分片用于构建检索索引,'queries'分片作为待检索的查询样本。每个样本的'id'字段可辅助结果映射,'text'字段则直接用于编码与相似度计算。数据集支持按需分片读取,适合大规模检索系统的开发与评估,用户可在此基础上实现文本检索模型的训练、调优与性能验证。
背景与挑战
背景概述
在自然语言处理领域,文本检索作为信息获取的核心技术,长期面临跨语言、跨领域泛化能力不足的瓶颈。C-MTEB/T2Retrieval数据集由多语言文本嵌入基准(C-MTEB)项目团队构建,旨在评估和推动文本检索模型在中文环境下的性能。该数据集创建于2023年,汇聚了来自百度、阿里巴巴等机构的研究力量,聚焦于解决中文检索任务中标注数据稀缺、语义匹配复杂等核心问题。作为C-MTEB基准的重要组成部分,T2Retrieval通过提供多样化的查询与语料库,为模型在短文本匹配、长文档检索等场景下的鲁棒性测试奠定了坚实基础,对中文信息检索领域的研究进展产生了深远影响。
当前挑战
T2Retrieval数据集所应对的领域挑战主要在于中文文本检索中语义歧义性与上下文依赖性的复杂交织——例如一词多义现象与领域术语的精准匹配,这要求模型具备深层的语言理解能力。构建过程中,团队面临多重困难:首先,需从海量互联网数据中筛选出高质量、低噪声的文本对,确保语料库的纯净度;其次,标注人员需对查询与文档的相关性进行精细判断,以覆盖短文本搜索、长文档定位等不同检索粒度;最后,数据集的规模与多样性平衡成为难题——需在11.8万条语料与2.2万条查询中兼顾覆盖广泛主题与维持语义一致性,这对数据采样策略与质量控制流程提出了严苛要求。
常用场景
经典使用场景
在信息检索与自然语言处理领域,T2Retrieval数据集作为C-MTEB中文嵌入基准的核心组成部分,被广泛用于评估和训练文本检索模型。该数据集包含逾11万条语料库条目和超过2.2万个查询样本,覆盖多样化的中文文本场景,使其成为衡量模型从大规模语料中精准定位相关文档能力的经典基准。研究者通常利用其进行稠密检索与稀疏检索方法的对比实验,以验证模型在语义匹配上的鲁棒性与效率。
衍生相关工作
基于T2Retrieval数据集,衍生出多项标志性工作,如针对中文嵌入模型的跨任务对比研究,以及融合对比学习与负样本挖掘的检索优化算法。经典工作包括C-MTEB基准的构建,该基准整合了多个中文检索任务,推动了如BERT-whitening和SimCSE等模型在中文场景的适配。此外,该数据集还催生了面向领域自适应检索的迁移学习方法,为后续如Dense Passage Retrieval在中文领域的本土化改进奠定了实证基础。
数据集最近研究
最新研究方向
在自然语言处理与信息检索领域,文本到检索(Text-to-Retrieval)任务正成为大模型落地应用的关键技术突破口。T2Retrieval数据集作为中文检索基准的重要组成,聚焦于从大规模语料库中高效匹配与查询相关的文本片段,其研究前沿紧密围绕密集检索(Dense Retrieval)与对比学习范式的融合。当前热点方向包括:基于预训练语言模型的语义向量压缩技术,以解决高维嵌入带来的存储与计算瓶颈;跨语言与多模态检索的扩展,推动中文检索模型在全球化场景下的泛化能力;以及针对长文本、细粒度语义的检索优化,例如引入段落级交互机制或稀疏-密集混合架构。该数据集为评估检索模型在中文场景下的零样本迁移能力提供了标准化测试平台,其影响力已延伸至知识库问答、智能客服、法律文书检索等实际应用,推动着检索增强生成(RAG)技术在中文本土化生态中的成熟演进。
以上内容由遇见数据集搜集并总结生成



