dlwh/eu_wikipedias
收藏Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dlwh/eu_wikipedias
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个围绕`olm/wikipedia`的封装,专门用于连接欧盟语言的数据。包含的欧盟语言有:保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语。使用该数据集需要安装`mwparserfromhell`和`multiprocess`依赖项,并可以通过`datasets`库加载数据集。
提供机构:
dlwh
原始信息汇总
数据集概述
数据集名称
- 名称:Wikipedia
数据集创建者
- 标注创建者:无标注
- 语言创建者:众包
数据集属性
- 许可证:
- cc-by-sa-3.0
- gfdl
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
- 来源数据集:原始
- 多语言性:多语言
数据集大小
- 大小分类:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
- 1M<n<10M
支持的语言
- 支持的语言包括:
- bg
- cs
- da
- de
- el
- en
- es
- et
- fi
- fr
- ga
- hr
- hu
- it
- lt
- lv
- mt
- nl
- pl
- pt
- ro
- sk
- sl
- sv



