mteb/sprintduplicatequestions-pairclassification

Name: mteb/sprintduplicatequestions-pairclassification
Creator: mteb
Published: 2025-05-04 16:09:24
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/sprintduplicatequestions-pairclassification

下载链接

链接失效反馈

官方服务：

资源简介：

SprintDuplicateQuestions是一个来自Sprint社区的关于重复问题的数据集，用于文本分类任务中的语义相似性分类。数据集包含大量的问题对，其中标注为重复的问题对和 non-duplicate 的问题对。该数据集是MTEB（大规模文本嵌入基准）的一部分，用于评估文本嵌入模型在检测重复问题上的性能。

SprintDuplicateQuestions is a dataset consisting of duplicate questions from the Sprint community, used for the text classification task of semantic similarity classification. The dataset contains a large number of question pairs, including labeled duplicate question pairs and non-duplicate question pairs. This dataset is part of MTEB (Massive Text Embedding Benchmark) and is used to evaluate the performance of text embedding models in duplicate question detection.

提供机构：

mteb

原始信息汇总

数据集语言信息

语言: 英语 (en)

5,000+

优质数据集

54 个

任务类型

进入经典数据集