THUIR/T2Ranking

Name: THUIR/T2Ranking
Creator: THUIR
Published: 2025-03-06 09:34:07
License: 暂无描述

Hugging Face2025-03-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/THUIR/T2Ranking

下载链接

链接失效反馈

官方服务：

资源简介：

T2Ranking是一个大规模的中文段落排序基准数据集，包含超过300K的查询和超过2M的唯一段落，这些数据来自真实世界的搜索引擎。该数据集专注于中文搜索场景，具有大量的细粒度相关性标注，通过从多个商业搜索引擎检索段落结果并提供完整标注来缓解假阴性问题，并设计了多种策略来确保数据集的高质量。

提供机构：

THUIR

原始信息汇总

数据集概述

数据集名称

T2Ranking

数据集描述

T2Ranking是一个大规模的中文段落排序基准数据集，包含超过300,000个查询和200多万个独特段落，来源于实际的搜索引擎日志。该数据集专注于中文搜索场景，旨在支持深度学习算法的设计和精确排序算法的构建。

数据集特点

语言：中文
规模：数据集大小介于1M至10M之间
内容：包含详细的4级相关性判断，有助于挖掘查询与段落之间的细粒度关系
来源：数据来源于Sogou搜索引擎的用户日志，通过模型进行段落分割和聚类去重处理
优势：相比现有中文段落排序数据集，在数据规模和相关性标注方面具有明显优势

数据集文件

集合：collection.tsv（2,303,643条记录）
查询：queries.train.tsv（258,042条记录）、queries.dev.tsv（24,832条记录）、queries.test.tsv（24,832条记录）
相关性：qrels.train.tsv（1,613,421条记录）、qrels.dev.tsv（400,536条记录）、qrels.retrieval.train.tsv（744,663条记录）、qrels.retrieval.dev.tsv（118,933条记录）
负样本：train.bm25.tsv（200,359,731条记录）、train.mined.tsv（200,376,001条记录）

数据集下载

数据集可通过以下命令下载： bash git lfs install git clone https://huggingface.co/datasets/THUIR/T2Ranking

许可证

数据集遵循Apache License 2.0。

引用信息

若在研究中使用此数据集，请引用相关论文：

@misc{xie2023t2ranking, title={T2Ranking: A large-scale Chinese Benchmark for Passage Ranking}, author={Xiaohui Xie and Qian Dong and Bingning Wang and Feiyang Lv and Ting Yao and Weinan Gan and Zhijing Wu and Xiangsheng Li and Haitao Li and Yiqun Liu and Jin Ma}, year={2023}, eprint={2304.03679}, archivePrefix={arXiv}, primaryClass={cs.IR} }

搜集汇总

数据集介绍

构建方式

T2Ranking数据集的构建基于大规模的中文文本检索场景，通过从搜狗搜索引擎的用户日志中抽取基于问题的搜索查询，并从多个搜索引擎中提取相应的文档内容。经过模型驱动的段落分割和聚类去重处理，构建了一个包含超过30万查询和200万段落的大规模语料库。每个查询与段落对由专家标注者进行4级相关性判断，确保了数据集的高质量与细粒度。

特点

T2Ranking数据集具有显著的特点，包括专注于中文搜索场景、大规模的数据量、细粒度的相关性标注以及对假负例问题的缓解。这些特点使得该数据集在支持深度学习算法设计、挖掘查询与段落之间的细粒度关系以及提供更准确的评估方面具有显著优势。

使用方法

用户可以通过运行命令从HuggingFace平台下载T2Ranking数据集。下载后，数据集包含多个文件，分别用于存储段落集合、查询、相关性标注等信息。用户可以使用提供的脚本进行双编码器和交叉编码器的训练与评估，具体包括训练模型、评估模型性能以及使用BM25和DPR等方法进行检索和重排序。

背景与挑战

背景概述

在信息检索（IR）领域，段落排序是一个重要且具有挑战性的研究课题，尤其在学术界和工业界中备受关注。T2Ranking数据集由清华大学信息检索研究组（THUIR）于2023年推出，旨在为中文段落排序研究提供一个大规模的基准。该数据集包含了超过30万条查询和200万条独特的段落，来源于中国流行的搜索引擎搜狗的用户日志。通过模型分割和聚类去重等技术，T2Ranking不仅解决了现有中文数据集在数据规模和细粒度标注上的不足，还通过多搜索引擎检索结果的整合，缓解了假负例问题，为构建更精确的排序算法提供了坚实的基础。

当前挑战

T2Ranking数据集在构建过程中面临多项挑战。首先，如何从大规模的用户日志中高效地提取高质量的查询和段落，并确保其语义完整性和多样性，是一个技术难点。其次，细粒度的相关性标注需要大量的人力和时间投入，如何通过主动学习等方法提高标注效率和质量，也是一大挑战。此外，数据集的构建还需解决多搜索引擎检索结果的整合问题，以减少假负例的影响，确保评估的准确性。这些挑战不仅推动了数据集构建技术的发展，也为后续的段落排序算法研究提供了丰富的实验平台。

常用场景

经典使用场景

T2Ranking数据集在信息检索领域中，主要用于大规模中文文档排序任务。其经典使用场景包括文档检序的两个关键阶段：文档检索和文档重排序。通过该数据集，研究者可以训练和评估双编码器和交叉编码器模型，以实现更精准的查询与文档匹配，从而提升搜索结果的相关性和用户体验。

衍生相关工作

基于T2Ranking数据集，研究者们开发了多种先进的文档排序算法和模型，如双编码器和交叉编码器。这些模型不仅在中文文档排序任务中表现出色，还为其他语言和领域的信息检索研究提供了新的思路和方法，进一步推动了信息检索技术的发展。

数据集最近研究