T2ranking

github2023-05-12 更新2024-05-31 收录

下载链接：

https://github.com/Y1Jia/Tevatron-T2ranking

下载链接

链接失效反馈

官方服务：

资源简介：

T2ranking是一个中文检索数据集，用于训练和评估Dual Encoder。数据集包含多种文件，如collection.tsv、queries.train.tsv等，用于支持检索任务的训练和测试。

T2ranking is a Chinese retrieval dataset designed for training and evaluating Dual Encoder models. The dataset comprises various files, such as collection.tsv and queries.train.tsv, which are utilized to support the training and testing of retrieval tasks.

创建时间：

2023-05-08

原始信息汇总

数据集概述

数据集名称

T2ranking

数据集来源

从huggingface下载。

数据集文件详情

Description	Filename	Num Records	Format
Collection	collection.tsv	2,303,643	tsv: pid, passage
Queries Train	queries.train.tsv	258,042	tsv: qid, query
Queries Dev	queries.dev.tsv	24,832	tsv: qid, query
Queries Test	queries.test.tsv	24,832	tsv: qid, query
Qrels Train for re-ranking	qrels.train.tsv	1,613,421	TREC qrels format (qid - pid rel)
Qrels Dev for re-ranking	qrels.dev.tsv	400,536	TREC qrels format
Qrels Retrieval Train	qrels.retrieval.train.tsv	744,663	tsv: qid, pid
Qrels Retrieval Dev	qrels.retrieval.dev.tsv	118,933	tsv: qid, pid
BM25 Negatives	train.bm25.tsv	200,359,731	tsv: qid, pid, index
Hard Negatives	train.mined.tsv	200,376,001	tsv: qid, pid, index, score

数据集使用

在训练Dual Encoder时，主要使用以下文件：
- collection.tsv
- queries.train.tsv
- qrels.retrieval.train.tsv
- train.bm25.tsv（或train.mined.tsv）
数据集构造方法参考此处。

数据集格式

Tevatron使用的数据集格式包括：
- query数据集格式：{query_id:<query_id>, "query":<query text>}
- corpus数据集格式：{docid:<passage id>, "text": <passage text>}

训练和评估结果

batch size	checkpoint (epoch)	MRR@10	recall@1	recall@50	recall@1000
128	10	0.4697	0.0643	0.6364	0.8781
128	20	0.4824	0.0667	0.6479	0.8835
1024（GradCache）	10	0.5005	0.0690	0.6641	0.8829
1024（GradCache）	20	0.5054	0.0697	0.6743	0.8899

搜集汇总

数据集介绍

构建方式

T2ranking数据集的构建过程主要依赖于从Hugging Face平台下载的原始数据文件，包括collection.tsv、queries.train.tsv、qrels.retrieval.train.tsv等。这些文件通过特定的脚本进行处理，以生成符合Tevatron框架要求的训练和评估数据集。具体而言，对于每个查询，从BM25排名前200的文档中采样30个作为负例，同时从qrels.retrieval.train.tsv中读取对应的正例，确保数据集的多样性和代表性。

特点

T2ranking数据集的特点在于其大规模和高复杂性，包含超过230万条文档和25万条查询，涵盖了广泛的主题和领域。数据集不仅提供了丰富的正例和负例样本，还通过BM25和硬负例挖掘技术增强了模型的训练效果。此外，数据集的格式设计灵活，支持多种信息检索任务，如重排序和检索，使其成为评估和训练先进检索模型的理想选择。

使用方法

使用T2ranking数据集时，首先需通过提供的脚本将原始数据转换为Tevatron框架所需的格式。随后，利用这些格式化的数据进行Dual Encoder模型的训练和评估。训练过程中，可以通过调整batch size和使用GradCache技术来优化显存使用和模型性能。评估阶段，则通过计算MRR@10、recall@1等指标来量化模型的检索效果，确保模型在实际应用中的有效性和可靠性。

背景与挑战

背景概述

T2ranking数据集由清华大学信息检索实验室（THUIR）开发，旨在推动中文信息检索领域的研究。该数据集于近年发布，主要面向双编码器（Dual Encoder）模型的训练与评估，涵盖了超过230万篇文档和25万条查询。T2ranking的核心研究问题在于如何通过高效的检索模型提升中文文本的检索精度与效率。该数据集的发布为中文信息检索领域提供了重要的基准数据，推动了相关算法的优化与创新，尤其在双编码器模型的应用中展现了显著的影响力。

当前挑战

T2ranking数据集在构建与应用过程中面临多重挑战。首先，中文文本的复杂性与多样性使得检索模型的训练难度显著增加，尤其是在处理多义词、同义词及上下文依赖问题时。其次，数据集的规模庞大，如何在有限的计算资源下高效训练模型成为一大难题，特别是在处理数百万条负例样本时。此外，数据集的构建过程中需要精确匹配查询与文档，确保正例与负例的采样质量，这对数据标注与处理提出了极高的要求。最后，如何在评估阶段准确衡量模型的检索性能，尤其是在高召回率与高精度之间取得平衡，也是该数据集应用中的关键挑战。

常用场景

经典使用场景

T2ranking数据集在信息检索领域具有广泛的应用，尤其是在中文检索任务中。该数据集通过提供大量的查询-文档对，支持双编码器模型的训练与评估，帮助研究者优化检索系统的性能。其经典使用场景包括在训练过程中利用BM25算法生成的负例进行采样，结合正例数据，构建高效的检索模型。

解决学术问题

T2ranking数据集解决了信息检索领域中查询与文档匹配的难题，尤其是在中文语境下的检索任务。通过提供丰富的查询-文档对和负例采样机制，该数据集帮助研究者优化双编码器模型的训练过程，提升检索系统的准确性和召回率。其意义在于为中文检索任务提供了标准化的评估基准，推动了相关算法的创新与发展。

衍生相关工作

T2ranking数据集的发布催生了一系列经典研究工作，尤其是在双编码器模型和负例采样策略的优化方面。例如，基于该数据集的研究提出了GradCache技术，显著提升了模型在大批量训练中的性能。此外，T2ranking还启发了更多针对中文检索任务的数据集构建方法，推动了信息检索领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集