joelniklaus/EU_Wikipedias
收藏Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/EU_Wikipedias
下载链接
链接失效反馈官方服务:
资源简介:
EUWikipedias数据集包含了欧盟多种语言的维基百科文章,经过清理去除了标记和不必要的部分(如参考文献等)。数据集支持的任务是fill-mask,并且包含了多种语言的数据。数据集的格式为jsonl.xz,目前仅支持日期20221120。数据集的创建是通过下载维基百科的24种欧盟语言版本,并使用olm/wikipedia工具进行处理。
提供机构:
joelniklaus
原始信息汇总
数据集概述
数据集名称: EUWikipedias: A dataset of Wikipedias in the EU languages
数据集简介: 该数据集包含所有欧盟语言的维基百科文章,数据来源于维基百科的转储数据,经过清洗处理,去除了Markdown格式和不需要的部分(如参考文献等)。
支持的语言:
- bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
数据集大小: 10M<n<100M
许可证: cc-by-4.0
多语言性: 多语言
任务类别: fill-mask
数据集结构
数据格式: jsonl.xz
数据分割: 仅有一个train分割
数据实例示例:
| Source | Size (MB) | Words | Documents | Words/Document |
|---|---|---|---|---|
| 20221120.all | 86034 | 9506846949 | 26481379 | 359 |
| 20221120.bg | 1261 | 88138772 | 285876 | 308 |
| ... | ... | ... | ... | ... |
| 20221120.sv | 2560 | 257872432 | 2556132 | 100 |
数据集创建
来源数据: 数据集是通过下载24种欧盟语言的维基百科数据创建的,具体参考olm/wikipedia。
数据集准备: 更多信息请参考prepare_wikipedias.py。
贡献者
感谢@JoelNiklaus为本数据集的贡献。



