tarekziade/wikipedia-topics
收藏Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tarekziade/wikipedia-topics
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过探索Wikipedia的40个根类别及其子类别来收集页面创建的。每个类别最多提供2000个页面。数据集包含id、title、summary、text和categories等字段,并分为训练集和测试集。
该数据集是通过探索Wikipedia的40个根类别及其子类别来收集页面创建的。每个类别最多提供2000个页面。数据集包含id、title、summary、text和categories等字段,并分为训练集和测试集。
提供机构:
tarekziade
原始信息汇总
数据集概述
数据集信息
- 许可证: cc-by-sa-4.0
- 特征:
id: 数据类型为int64title: 数据类型为stringsummary: 数据类型为stringtext: 数据类型为stringcategories: 数据类型为string的序列
数据分割
- 训练集:
- 字节数: 447696713.49705654
- 样本数: 67573
- 测试集:
- 字节数: 49749968.50294345
- 样本数: 7509
数据集大小
- 下载大小: 298225345
- 数据集大小: 497446682.0
配置
- 默认配置:
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
- 训练集路径:
数据集创建
- 使用维基百科创建页面数据集。
- 探索40个根类别及其子类别以收集页面,每个类别最多提供2000个页面。



