castorini/wura
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/wura
下载链接
链接失效反馈官方服务:
资源简介:
WURA数据集是一个文档级别的集合,涵盖了16种非洲语言和4种在非洲广泛使用的高资源语言(英语、法语、阿拉伯语和葡萄牙语)。该数据集通过审计mC4和爬取额外的验证新闻源创建,首次用于训练AfriTeVa V2。它主要用于文本生成和语言建模任务,包含多种语言配置,每种配置包含id、标题、内容、类别和网址等特征,并分为训练和验证部分,具有指定的字节和示例大小。
WURA数据集是一个文档级别的集合,涵盖了16种非洲语言和4种在非洲广泛使用的高资源语言(英语、法语、阿拉伯语和葡萄牙语)。该数据集通过审计mC4和爬取额外的验证新闻源创建,首次用于训练AfriTeVa V2。它主要用于文本生成和语言建模任务,包含多种语言配置,每种配置包含id、标题、内容、类别和网址等特征,并分为训练和验证部分,具有指定的字节和示例大小。
提供机构:
castorini
原始信息汇总
数据集概述
WURA 是一个涵盖16种非洲语言和4种高资源语言(英语、法语、阿拉伯语和葡萄牙语)的文档级数据集。该数据集通过审核mC4和爬取额外的验证新闻源创建,首次用于训练AfriTeVa V2。
数据集结构
数据集包含多个配置,每个配置对应一种语言,并包含以下特征:
id: 字符串类型headline: 字符串类型content: 字符串类型category: 字符串类型url: 字符串类型
每个配置包含两个数据集分割:
train: 训练集validation: 验证集
具体配置信息
-
afr:
- 训练集: 4549624636 字节, 1042812 样本
- 验证集: 504320368 字节, 115868 样本
- 下载大小: 5124049817 字节
- 数据集大小: 5053945004 字节
-
amh:
- 训练集: 1115662532 字节, 135863 样本
- 验证集: 123858179 字节, 15095 样本
- 下载大小: 1248728162 字节
- 数据集大小: 1239520711 字节
-
arz:
- 训练集: 621073489 字节, 1455662 样本
- 验证集: 69342976 字节, 161740 样本
- 下载大小: 753246622 字节
- 数据集大小: 690416465 字节
-
eng:
- 训练集: 3795223480 字节, 1378555 样本
- 验证集: 423622310 字节, 153172 样本
- 下载大小: 4279723559 字节
- 数据集大小: 4218845790 字节
-
fra:
- 训练集: 3340740638 字节, 1443177 样本
- 验证集: 368983958 字节, 160352 样本
- 下载大小: 3796280757 字节
- 数据集大小: 3709724596 字节
-
hau:
- 训练集: 909342448 字节, 359881 样本
- 验证集: 101151882 字节, 39986 样本
- 下载大小: 1027800797 字节
- 数据集大小: 1010494330 字节
-
ibo:
- 训练集: 193493918 字节, 51386 样本
- 验证集: 22265232 字节, 5709 样本
- 下载大小: 219266571 字节
- 数据集大小: 215759150 字节
-
kin:
- 训练集: 208582172 字节, 97064 样本
- 验证集: 10662209 字节, 5831 样本
- 下载大小: 222938591 字节
- 数据集大小: 219244381 字节
-
mlg:
- 训练集: 561868602 字节, 216210 样本
- 验证集: 62280728 字节, 24023 样本
- 下载大小: 635783521 字节
- 数据集大小: 624149330 字节
-
nya:
- 训练集: 260737793 字节, 39647 样本
- 验证集: 29199589 字节, 4405 样本
- 下载大小: 293880333 字节
- 数据集大小: 289937382 字节
-
orm:
- 训练集: 51725718 字节, 20169 样本
- 验证集: 5500617 字节, 2241 样本
- 下载大小: 58001407 字节
- 数据集大小: 57226335 字节
-
por:
- 训练集: 2191644027 字节, 1089199 样本
- 验证集: 245338209 字节, 121022 样本
- 下载大小: 2498665351 字节
- 数据集大小: 2436982236 字节
-
sna:
- 训练集: 225393219 字节, 60986 样本
- 验证集: 25595688 字节, 6776 样本
- 下载大小: 254964089 字节
- 数据集大小: 250988907 字节
-
som:
- 训练集: 2165910731 字节, 976484 样本
- 验证集: 241175779 字节, 108498 样本
- 下载大小: 2451878912 字节
- 数据集大小: 2407086510 字节
-
sot:
- 训练集: 199386007 字节, 38361 样本
- 验证集: 22324957 字节, 4262 样本
- 下载大小: 224556522 字节
- 数据集大小: 221710964 字节
-
swa:
- 训练集: 3371589021 字节, 1036254 样本
- 验证集: 373326029 字节, 115139 样本
- 下载大小: 3804265021 字节
- 数据集大小: 3744915050 字节
-
tir:
- 训练集: 32026542 字节, 8240 样本
- 验证集: 3589604 字节, 915 样本
- 下载大小: 35955368 字节
- 数据集大小: 35616146 字节
-
xho:
- 训练集: 114450184 字节, 23892 样本
- 验证集: 13051255 字节, 2654 样本
- 下载大小: 129410950 字节
- 数据集大小: 127501439 字节
-
yor:
- 训练集: 192473693 字节, 73473 样本
- 验证集: 21123764 字节, 8163 样本
- 下载大小: 217343993 字节
- 数据集大小: 213597457 字节
-
zul:
- 训练集: 279244495 字节, 65447 样本
- 验证集: 30487397 字节, 7271 样本
- 下载大小: 314070508 字节
- 数据集大小: 309731892 字节



