five

sentence-transformers/quora-duplicates

收藏
Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/quora-duplicates
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Quora问题对数据集的四种格式,这些格式易于与Sentence Transformers一起使用,以训练嵌入模型。数据集最初由Quora创建,用于Kaggle竞赛。数据集分为四个子集:pair-class、pair、triplet-all和triplet,每个子集有不同的列和数据类型,用于不同的任务,如特征提取和句子相似性。

该数据集包含Quora问题对数据集的四种格式,这些格式易于与Sentence Transformers一起使用,以训练嵌入模型。数据集最初由Quora创建,用于Kaggle竞赛。数据集分为四个子集:pair-class、pair、triplet-all和triplet,每个子集有不同的列和数据类型,用于不同的任务,如特征提取和句子相似性。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

基本信息

  • 名称: Quora Duplicate Questions
  • 语言: 英语 (en)
  • 多语言性: 单语 (monolingual)
  • 大小: 1M<n<10M
  • 任务类别: 特征提取, 句子相似度
  • 标签: sentence-transformers

数据集结构

pair-class 子集

  • : "sentence1", "sentence2", "label"
  • 列类型: str, str, class ({"0": "different", "1": "duplicate"})
  • 训练集大小: 404290 样本, 54870273 字节
  • 下载大小: 34965546 字节

pair 子集

  • : "anchor", "positive"
  • 列类型: str, str
  • 训练集大小: 149263 样本, 19063882.986566573 字节
  • 下载大小: 10710908 字节

triplet-all 子集

  • : "anchor", "positive", "negative"
  • 列类型: str, str, str
  • 训练集大小: 2792280 样本, 483971801 字节
  • 下载大小: 104682424 字节

triplet 子集

  • : "anchor", "positive", "negative"
  • 列类型: str, str, str
  • 训练集大小: 101762 样本, 17575186 字节
  • 下载大小: 10954551 字节

数据收集策略

  • pair-class: 直接复制自 Quora,列更便于解析。
  • pair: 从 pair-class 子集中过滤掉 "different" 选项,移除标签列并重命名列。
  • triplet-all: 来自 embedding-training-data,包含 Quora 的重复问题对及额外的困难负样本。
  • triplet: 同 triplet-all,但仅取每个样本的锚点、正例和第一个负例。

去重情况

  • 所有子集均未进行去重处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作