sentence-transformers/quora-duplicates-mining

Name: sentence-transformers/quora-duplicates-mining
Creator: sentence-transformers
Published: 2024-05-02 08:14:13
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/quora-duplicates-mining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Quora重复问题数据集，包含两个子集：`questions`和`duplicates`。`questions`子集包含问题和问题ID，`duplicates`子集包含成对的问题ID，用于识别重复问题。数据集主要用于与Sentence Transformers中的`ParaphraseMiningEvaluator`评估器一起使用，以评估模型的性能。数据集来源于Quora的Kaggle竞赛，并且数据格式经过处理以便于使用。

提供机构：

sentence-transformers

原始信息汇总

数据集概述

基本信息

名称: Quora Duplicate Questions
语言: 英语 (en)
多语言性: 单语种
大小范围: 100K<n<1M
任务类别:
- 特征提取
- 句子相似度
标签:
- sentence-transformers
- evaluation

数据集结构

`duplicates` 配置

特征:
- qid1: 字符串
- qid2: 字符串
分割:
- 训练集: 217838个样本，4091278字节
- 开发集: 20017个样本，382130字节
- 测试集: 65350个样本，1222432字节
下载大小: 4513329字节
数据集大小: 5695840字节

`questions` 配置

特征:
- question: 字符串
- qid: 字符串
分割:
- 训练集: 376493个样本，28494589字节
- 开发集: 53485个样本，4060422字节
- 测试集: 107953个样本，8163310字节
下载大小: 28791952字节
数据集大小: 40718321字节

数据集子集

`questions` 子集

列: "question", "qid"
列类型: 字符串, 字符串
收集策略: 直接复制自quora-IR-dataset/duplicate-mining，由create_splits.py生成
去重: 否

`duplicates` 子集

列: "qid1", "qid2"
列类型: 字符串, 字符串
收集策略: 直接复制自quora-IR-dataset/duplicate-mining，由create_splits.py生成
去重: 否

5,000+

优质数据集

54 个

任务类型

进入经典数据集

sentence-transformers/quora-duplicates-mining

数据集概述

基本信息

数据集结构

duplicates 配置

questions 配置

数据集子集

questions 子集

duplicates 子集

`duplicates` 配置

`questions` 配置

`questions` 子集

`duplicates` 子集