KushT/bbc_news_multiclass_train_val_test
收藏Hugging Face2023-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KushT/bbc_news_multiclass_train_val_test
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: text
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 3414429
num_examples: 1512
- name: validation
num_bytes: 888603
num_examples: 379
- name: test
num_bytes: 751863
num_examples: 334
download_size: 0
dataset_size: 5054895
---
Label Names:
{
'business': 0,
'entertainment': 1,
'politics': 2,
'sport': 3,
'tech': 4
}
Dataset: [Kaggle - BBC Full Text Document Classification](https://www.kaggle.com/datasets/shivamkushwaha/bbc-full-text-document-classification/code)
许可证:MIT
配置项:
- 配置名称:默认配置
数据文件:
- 拆分集:训练集(train),路径:data/train-*
- 拆分集:验证集(validation),路径:data/validation-*
- 拆分集:测试集(test),路径:data/test-*
数据集信息:
特征字段:
- 字段名:文本(text),数据类型:string
- 字段名:标签(label),数据类型:int64
数据拆分:
- 拆分名称:训练集(train),字节大小:3414429,样本数量:1512
- 拆分名称:验证集(validation),字节大小:888603,样本数量:379
- 拆分名称:测试集(test),字节大小:751863,样本数量:334
下载大小:0
数据集总大小:5054895
标签映射:
{
"业务(business)": 0,
"娱乐(entertainment)": 1,
"政治(politics)": 2,
"体育(sport)": 3,
"科技(tech)": 4
}
数据集来源:[Kaggle-BBC 全文本文档分类数据集](https://www.kaggle.com/datasets/shivamkushwaha/bbc-full-text-document-classification/code)
提供机构:
KushT
原始信息汇总
数据集概述
许可证
- MIT许可证
配置
- 默认配置
- 数据文件路径:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 数据文件路径:
数据集信息
- 特征:
text:字符串类型label:64位整数类型
- 数据分割:
- 训练集:
- 字节数:3414429
- 样本数:1512
- 验证集:
- 字节数:888603
- 样本数:379
- 测试集:
- 字节数:751863
- 样本数:334
- 训练集:
- 下载大小:0字节
- 数据集大小:5054895字节
标签名称
business:0entertainment:1politics:2sport:3tech:4



