tiagoblima/newsdata
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/tiagoblima/newsdata
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含标题、文本、类别、标题文本和标签等特征。数据集分为训练集、验证集和测试集,分别包含116401、33257和16628个样本。训练集、验证集和测试集的总字节大小分别为671395517.128097、191824818.62809703和95909525.33746271。数据集的总下载大小为616757055字节,总数据集大小为959129861.0936568字节。
The dataset includes features such as title, text, category, title_text, and label. It is divided into training, validation, and test sets, containing 116401, 33257, and 16628 samples respectively. The total byte sizes for the training, validation, and test sets are 671395517.128097, 191824818.62809703, and 95909525.33746271 respectively. The total download size of the dataset is 616757055 bytes, and the total dataset size is 959129861.0936568 bytes.
提供机构:
tiagoblima
原始信息汇总
数据集概述
数据特征
- title: 字符串类型
- text: 字符串类型
- category: 字符串类型
- title_text: 字符串类型
- label: 64位整数类型
数据分割
- train:
- 样本数量: 116,401
- 数据大小: 671,395,517.128097 字节
- validation:
- 样本数量: 33,257
- 数据大小: 191,824,818.62809703 字节
- test:
- 样本数量: 16,628
- 数据大小: 95,909,525.33746271 字节
数据集大小
- 下载大小: 616,757,055 字节
- 总数据大小: 959,129,861.0936568 字节
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件路径:



