five

castorini/wura

收藏
Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/wura
下载链接
链接失效反馈
官方服务:
资源简介:
WURA数据集是一个文档级别的集合,涵盖了16种非洲语言和4种在非洲广泛使用的高资源语言(英语、法语、阿拉伯语和葡萄牙语)。该数据集通过审计mC4和爬取额外的验证新闻源创建,首次用于训练AfriTeVa V2。它主要用于文本生成和语言建模任务,包含多种语言配置,每种配置包含id、标题、内容、类别和网址等特征,并分为训练和验证部分,具有指定的字节和示例大小。

WURA数据集是一个文档级别的集合,涵盖了16种非洲语言和4种在非洲广泛使用的高资源语言(英语、法语、阿拉伯语和葡萄牙语)。该数据集通过审计mC4和爬取额外的验证新闻源创建,首次用于训练AfriTeVa V2。它主要用于文本生成和语言建模任务,包含多种语言配置,每种配置包含id、标题、内容、类别和网址等特征,并分为训练和验证部分,具有指定的字节和示例大小。
提供机构:
castorini
原始信息汇总

数据集概述

WURA 是一个涵盖16种非洲语言和4种高资源语言(英语、法语、阿拉伯语和葡萄牙语)的文档级数据集。该数据集通过审核mC4和爬取额外的验证新闻源创建,首次用于训练AfriTeVa V2。

数据集结构

数据集包含多个配置,每个配置对应一种语言,并包含以下特征:

  • id: 字符串类型
  • headline: 字符串类型
  • content: 字符串类型
  • category: 字符串类型
  • url: 字符串类型

每个配置包含两个数据集分割:

  • train: 训练集
  • validation: 验证集

具体配置信息

  • afr:

    • 训练集: 4549624636 字节, 1042812 样本
    • 验证集: 504320368 字节, 115868 样本
    • 下载大小: 5124049817 字节
    • 数据集大小: 5053945004 字节
  • amh:

    • 训练集: 1115662532 字节, 135863 样本
    • 验证集: 123858179 字节, 15095 样本
    • 下载大小: 1248728162 字节
    • 数据集大小: 1239520711 字节
  • arz:

    • 训练集: 621073489 字节, 1455662 样本
    • 验证集: 69342976 字节, 161740 样本
    • 下载大小: 753246622 字节
    • 数据集大小: 690416465 字节
  • eng:

    • 训练集: 3795223480 字节, 1378555 样本
    • 验证集: 423622310 字节, 153172 样本
    • 下载大小: 4279723559 字节
    • 数据集大小: 4218845790 字节
  • fra:

    • 训练集: 3340740638 字节, 1443177 样本
    • 验证集: 368983958 字节, 160352 样本
    • 下载大小: 3796280757 字节
    • 数据集大小: 3709724596 字节
  • hau:

    • 训练集: 909342448 字节, 359881 样本
    • 验证集: 101151882 字节, 39986 样本
    • 下载大小: 1027800797 字节
    • 数据集大小: 1010494330 字节
  • ibo:

    • 训练集: 193493918 字节, 51386 样本
    • 验证集: 22265232 字节, 5709 样本
    • 下载大小: 219266571 字节
    • 数据集大小: 215759150 字节
  • kin:

    • 训练集: 208582172 字节, 97064 样本
    • 验证集: 10662209 字节, 5831 样本
    • 下载大小: 222938591 字节
    • 数据集大小: 219244381 字节
  • mlg:

    • 训练集: 561868602 字节, 216210 样本
    • 验证集: 62280728 字节, 24023 样本
    • 下载大小: 635783521 字节
    • 数据集大小: 624149330 字节
  • nya:

    • 训练集: 260737793 字节, 39647 样本
    • 验证集: 29199589 字节, 4405 样本
    • 下载大小: 293880333 字节
    • 数据集大小: 289937382 字节
  • orm:

    • 训练集: 51725718 字节, 20169 样本
    • 验证集: 5500617 字节, 2241 样本
    • 下载大小: 58001407 字节
    • 数据集大小: 57226335 字节
  • por:

    • 训练集: 2191644027 字节, 1089199 样本
    • 验证集: 245338209 字节, 121022 样本
    • 下载大小: 2498665351 字节
    • 数据集大小: 2436982236 字节
  • sna:

    • 训练集: 225393219 字节, 60986 样本
    • 验证集: 25595688 字节, 6776 样本
    • 下载大小: 254964089 字节
    • 数据集大小: 250988907 字节
  • som:

    • 训练集: 2165910731 字节, 976484 样本
    • 验证集: 241175779 字节, 108498 样本
    • 下载大小: 2451878912 字节
    • 数据集大小: 2407086510 字节
  • sot:

    • 训练集: 199386007 字节, 38361 样本
    • 验证集: 22324957 字节, 4262 样本
    • 下载大小: 224556522 字节
    • 数据集大小: 221710964 字节
  • swa:

    • 训练集: 3371589021 字节, 1036254 样本
    • 验证集: 373326029 字节, 115139 样本
    • 下载大小: 3804265021 字节
    • 数据集大小: 3744915050 字节
  • tir:

    • 训练集: 32026542 字节, 8240 样本
    • 验证集: 3589604 字节, 915 样本
    • 下载大小: 35955368 字节
    • 数据集大小: 35616146 字节
  • xho:

    • 训练集: 114450184 字节, 23892 样本
    • 验证集: 13051255 字节, 2654 样本
    • 下载大小: 129410950 字节
    • 数据集大小: 127501439 字节
  • yor:

    • 训练集: 192473693 字节, 73473 样本
    • 验证集: 21123764 字节, 8163 样本
    • 下载大小: 217343993 字节
    • 数据集大小: 213597457 字节
  • zul:

    • 训练集: 279244495 字节, 65447 样本
    • 验证集: 30487397 字节, 7271 样本
    • 下载大小: 314070508 字节
    • 数据集大小: 309731892 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作