five

dlwh/eu_wikipedias

收藏
Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dlwh/eu_wikipedias
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个围绕`olm/wikipedia`的封装,专门用于连接欧盟语言的数据。包含的欧盟语言有:保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语。使用该数据集需要安装`mwparserfromhell`和`multiprocess`依赖项,并可以通过`datasets`库加载数据集。
提供机构:
dlwh
原始信息汇总

数据集概述

数据集名称

  • 名称:Wikipedia

数据集创建者

  • 标注创建者:无标注
  • 语言创建者:众包

数据集属性

  • 许可证:
    • cc-by-sa-3.0
    • gfdl
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模
  • 来源数据集:原始
  • 多语言性:多语言

数据集大小

  • 大小分类:
    • n<1K
    • 1K<n<10K
    • 10K<n<100K
    • 100K<n<1M
    • 1M<n<10M

支持的语言

  • 支持的语言包括:
    • bg
    • cs
    • da
    • de
    • el
    • en
    • es
    • et
    • fi
    • fr
    • ga
    • hr
    • hu
    • it
    • lt
    • lv
    • mt
    • nl
    • pl
    • pt
    • ro
    • sk
    • sl
    • sv
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作