bethea/cc-preprocessed

Name: bethea/cc-preprocessed
Creator: bethea
Published: 2024-07-10 09:51:05
License: 暂无描述

Hugging Face2024-07-10 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/bethea/cc-preprocessed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含160,000个训练样本，20,000个验证样本和20,000个测试样本。每个样本包含一个唯一的dataID、一个summary序列和一个combined_texts序列。数据集总大小为1,822,691,596字节，下载大小为873,492,465字节。数据被分为训练、验证和测试三个部分，分别存储在指定的路径中。

The dataset consists of 160,000 training samples, 20,000 validation samples, and 20,000 test samples. Each sample includes a unique dataID, a sequence of summary, and a sequence of combined_texts. The total size of the dataset is 1,822,691,596 bytes, with a download size of 873,492,465 bytes. The data is divided into training, validation, and test sets, stored in specified paths.

提供机构：

bethea

原始信息汇总

数据集概述

数据集特征

dataID: 数据标识符，数据类型为字符串。
summary: 摘要信息，数据类型为字符串序列。
combined_texts: 组合文本，数据类型为字符串序列。

数据集分割

train: 训练集，包含160,000个样本，大小为1,457,900,029字节。
validation: 验证集，包含20,000个样本，大小为182,461,919字节。
test: 测试集，包含20,000个样本，大小为182,329,648字节。

数据集大小

下载大小: 873,492,465字节
数据集总大小: 1,822,691,596字节

配置信息

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集