mteb/sprintduplicatequestions-pairclassification
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/sprintduplicatequestions-pairclassification
下载链接
链接失效反馈官方服务:
资源简介:
SprintDuplicateQuestions是一个来自Sprint社区的关于重复问题的数据集,用于文本分类任务中的语义相似性分类。数据集包含大量的问题对,其中标注为重复的问题对和 non-duplicate 的问题对。该数据集是MTEB(大规模文本嵌入基准)的一部分,用于评估文本嵌入模型在检测重复问题上的性能。
SprintDuplicateQuestions is a dataset consisting of duplicate questions from the Sprint community, used for the text classification task of semantic similarity classification. The dataset contains a large number of question pairs, including labeled duplicate question pairs and non-duplicate question pairs. This dataset is part of MTEB (Massive Text Embedding Benchmark) and is used to evaluate the performance of text embedding models in duplicate question detection.
提供机构:
mteb
原始信息汇总
数据集语言信息
- 语言: 英语 (en)



