mimiklee/masterthesis_clean_text_20k
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mimiklee/masterthesis_clean_text_20k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个主要特征:document和summary,表明其可能用于文本摘要任务。数据集被分为训练集、验证集和测试集,分别包含20000、1000和1000个示例。
The dataset includes two main features: document and summary, both of which are string types. The dataset is divided into three parts: the training set (train) contains 20000 samples, while the validation set (validation) and the test set (test) each contain 1000 samples. The total download size of the dataset is 376332467 bytes, and the total size is 738143996.1245114 bytes. The dataset configuration is default, with data file paths corresponding to the training, validation, and test sets.
提供机构:
mimiklee
原始信息汇总
数据集概述
数据特征
- document: 数据类型为字符串。
- summary: 数据类型为字符串。
数据分割
- train: 包含20000个样本,大小为670894649.7076623字节。
- validation: 包含1000个样本,大小为33336551.764223196字节。
- test: 包含1000个样本,大小为33912794.65262582字节。
数据集大小
- 下载大小: 376332467字节。
- 数据集总大小: 738143996.1245114字节。
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件路径:



