sentence-transformers/quora-duplicates-mining
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/quora-duplicates-mining
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Quora重复问题数据集,包含两个子集:`questions`和`duplicates`。`questions`子集包含问题和问题ID,`duplicates`子集包含成对的问题ID,用于识别重复问题。数据集主要用于与Sentence Transformers中的`ParaphraseMiningEvaluator`评估器一起使用,以评估模型的性能。数据集来源于Quora的Kaggle竞赛,并且数据格式经过处理以便于使用。
该数据集是Quora重复问题数据集,包含两个子集:`questions`和`duplicates`。`questions`子集包含问题和问题ID,`duplicates`子集包含成对的问题ID,用于识别重复问题。数据集主要用于与Sentence Transformers中的`ParaphraseMiningEvaluator`评估器一起使用,以评估模型的性能。数据集来源于Quora的Kaggle竞赛,并且数据格式经过处理以便于使用。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 名称: Quora Duplicate Questions
- 语言: 英语 (en)
- 多语言性: 单语种
- 大小范围: 100K<n<1M
- 任务类别:
- 特征提取
- 句子相似度
- 标签:
- sentence-transformers
- evaluation
数据集结构
duplicates 配置
- 特征:
qid1: 字符串qid2: 字符串
- 分割:
- 训练集: 217838个样本,4091278字节
- 开发集: 20017个样本,382130字节
- 测试集: 65350个样本,1222432字节
- 下载大小: 4513329字节
- 数据集大小: 5695840字节
questions 配置
- 特征:
question: 字符串qid: 字符串
- 分割:
- 训练集: 376493个样本,28494589字节
- 开发集: 53485个样本,4060422字节
- 测试集: 107953个样本,8163310字节
- 下载大小: 28791952字节
- 数据集大小: 40718321字节
数据集子集
questions 子集
- 列: "question", "qid"
- 列类型: 字符串, 字符串
- 收集策略: 直接复制自
quora-IR-dataset/duplicate-mining,由create_splits.py生成 - 去重: 否
duplicates 子集
- 列: "qid1", "qid2"
- 列类型: 字符串, 字符串
- 收集策略: 直接复制自
quora-IR-dataset/duplicate-mining,由create_splits.py生成 - 去重: 否



