sentence-transformers/quora-duplicates
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/quora-duplicates
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Quora问题对数据集的四种格式,这些格式易于与Sentence Transformers一起使用,以训练嵌入模型。数据集最初由Quora创建,用于Kaggle竞赛。数据集分为四个子集:pair-class、pair、triplet-all和triplet,每个子集有不同的列和数据类型,用于不同的任务,如特征提取和句子相似性。
该数据集包含Quora问题对数据集的四种格式,这些格式易于与Sentence Transformers一起使用,以训练嵌入模型。数据集最初由Quora创建,用于Kaggle竞赛。数据集分为四个子集:pair-class、pair、triplet-all和triplet,每个子集有不同的列和数据类型,用于不同的任务,如特征提取和句子相似性。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 名称: Quora Duplicate Questions
- 语言: 英语 (en)
- 多语言性: 单语 (monolingual)
- 大小: 1M<n<10M
- 任务类别: 特征提取, 句子相似度
- 标签: sentence-transformers
数据集结构
pair-class 子集
- 列: "sentence1", "sentence2", "label"
- 列类型:
str,str,class({"0": "different", "1": "duplicate"}) - 训练集大小: 404290 样本, 54870273 字节
- 下载大小: 34965546 字节
pair 子集
- 列: "anchor", "positive"
- 列类型:
str,str - 训练集大小: 149263 样本, 19063882.986566573 字节
- 下载大小: 10710908 字节
triplet-all 子集
- 列: "anchor", "positive", "negative"
- 列类型:
str,str,str - 训练集大小: 2792280 样本, 483971801 字节
- 下载大小: 104682424 字节
triplet 子集
- 列: "anchor", "positive", "negative"
- 列类型:
str,str,str - 训练集大小: 101762 样本, 17575186 字节
- 下载大小: 10954551 字节
数据收集策略
pair-class: 直接复制自 Quora,列更便于解析。pair: 从pair-class子集中过滤掉 "different" 选项,移除标签列并重命名列。triplet-all: 来自 embedding-training-data,包含 Quora 的重复问题对及额外的困难负样本。triplet: 同triplet-all,但仅取每个样本的锚点、正例和第一个负例。
去重情况
- 所有子集均未进行去重处理。



