five

sentence-transformers/quora-duplicates-mining

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/quora-duplicates-mining
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Quora重复问题数据集,包含两个子集:`questions`和`duplicates`。`questions`子集包含问题和问题ID,`duplicates`子集包含成对的问题ID,用于识别重复问题。数据集主要用于与Sentence Transformers中的`ParaphraseMiningEvaluator`评估器一起使用,以评估模型的性能。数据集来源于Quora的Kaggle竞赛,并且数据格式经过处理以便于使用。

该数据集是Quora重复问题数据集,包含两个子集:`questions`和`duplicates`。`questions`子集包含问题和问题ID,`duplicates`子集包含成对的问题ID,用于识别重复问题。数据集主要用于与Sentence Transformers中的`ParaphraseMiningEvaluator`评估器一起使用,以评估模型的性能。数据集来源于Quora的Kaggle竞赛,并且数据格式经过处理以便于使用。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

基本信息

  • 名称: Quora Duplicate Questions
  • 语言: 英语 (en)
  • 多语言性: 单语种
  • 大小范围: 100K<n<1M
  • 任务类别:
    • 特征提取
    • 句子相似度
  • 标签:
    • sentence-transformers
    • evaluation

数据集结构

duplicates 配置

  • 特征:
    • qid1: 字符串
    • qid2: 字符串
  • 分割:
    • 训练集: 217838个样本,4091278字节
    • 开发集: 20017个样本,382130字节
    • 测试集: 65350个样本,1222432字节
  • 下载大小: 4513329字节
  • 数据集大小: 5695840字节

questions 配置

  • 特征:
    • question: 字符串
    • qid: 字符串
  • 分割:
    • 训练集: 376493个样本,28494589字节
    • 开发集: 53485个样本,4060422字节
    • 测试集: 107953个样本,8163310字节
  • 下载大小: 28791952字节
  • 数据集大小: 40718321字节

数据集子集

questions 子集

  • : "question", "qid"
  • 列类型: 字符串, 字符串
  • 收集策略: 直接复制自quora-IR-dataset/duplicate-mining,由create_splits.py生成
  • 去重: 否

duplicates 子集

  • : "qid1", "qid2"
  • 列类型: 字符串, 字符串
  • 收集策略: 直接复制自quora-IR-dataset/duplicate-mining,由create_splits.py生成
  • 去重: 否
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作