five

mteb/sprintduplicatequestions-pairclassification

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/sprintduplicatequestions-pairclassification
下载链接
链接失效反馈
官方服务:
资源简介:
SprintDuplicateQuestions是一个来自Sprint社区的关于重复问题的数据集,用于文本分类任务中的语义相似性分类。数据集包含大量的问题对,其中标注为重复的问题对和 non-duplicate 的问题对。该数据集是MTEB(大规模文本嵌入基准)的一部分,用于评估文本嵌入模型在检测重复问题上的性能。

SprintDuplicateQuestions is a dataset consisting of duplicate questions from the Sprint community, used for the text classification task of semantic similarity classification. The dataset contains a large number of question pairs, including labeled duplicate question pairs and non-duplicate question pairs. This dataset is part of MTEB (Massive Text Embedding Benchmark) and is used to evaluate the performance of text embedding models in duplicate question detection.
提供机构:
mteb
原始信息汇总

数据集语言信息

  • 语言: 英语 (en)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作