567-labs/cleaned-quora-dataset

Name: 567-labs/cleaned-quora-dataset
Creator: 567-labs
Published: 2024-01-29 14:31:06
License: 暂无描述

Hugging Face2024-01-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/567-labs/cleaned-quora-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于Quora数据集的清理版本，解决了原始数据集中句子可能具有多个ID的问题，并移除了包含空字符串的两行数据，以避免在嵌入时出现问题。数据集的主要特征包括问题和是否为重复问题的标识，数据集分为训练集，包含404,288个例子。创建该数据集的目的是通过允许按ID进行隔离和分割，最小化训练、测试和验证集之间的数据泄漏。

提供机构：

567-labs

原始信息汇总

数据集概述

语言

英语

许可证

数据集信息

特征

questions
- id: 序列类型为 int64
- text: 序列类型为 string
is_duplicate: 数据类型为 bool

分割

train
- 字节数: 61389323
- 样本数: 404288

大小

下载大小: 36181628
数据集大小: 61389323

配置

default
- 数据文件:
  - train: 路径为 data/train-*

数据集描述

该数据集是Quora数据集的清理版本，解决了原始数据集中句子可能具有多个ID的问题。
从原始数据集中移除了包含空字符串的两行，以避免在运行嵌入时出现问题。
创建目的是通过允许按ID隔离和分割来最小化训练、测试和验证集之间的数据泄露。

5,000+

优质数据集

54 个

任务类型

进入经典数据集