bethea/cc-preprocessed
收藏Hugging Face2024-07-10 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/bethea/cc-preprocessed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含160,000个训练样本,20,000个验证样本和20,000个测试样本。每个样本包含一个唯一的dataID、一个summary序列和一个combined_texts序列。数据集总大小为1,822,691,596字节,下载大小为873,492,465字节。数据被分为训练、验证和测试三个部分,分别存储在指定的路径中。
The dataset consists of 160,000 training samples, 20,000 validation samples, and 20,000 test samples. Each sample includes a unique dataID, a sequence of summary, and a sequence of combined_texts. The total size of the dataset is 1,822,691,596 bytes, with a download size of 873,492,465 bytes. The data is divided into training, validation, and test sets, stored in specified paths.
提供机构:
bethea
原始信息汇总
数据集概述
数据集特征
- dataID: 数据标识符,数据类型为字符串。
- summary: 摘要信息,数据类型为字符串序列。
- combined_texts: 组合文本,数据类型为字符串序列。
数据集分割
- train: 训练集,包含160,000个样本,大小为1,457,900,029字节。
- validation: 验证集,包含20,000个样本,大小为182,461,919字节。
- test: 测试集,包含20,000个样本,大小为182,329,648字节。
数据集大小
- 下载大小: 873,492,465字节
- 数据集总大小: 1,822,691,596字节
配置信息
- 配置名称: default
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*



