five

joelniklaus/EU_Wikipedias

收藏
Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/EU_Wikipedias
下载链接
链接失效反馈
官方服务:
资源简介:
EUWikipedias数据集包含了欧盟多种语言的维基百科文章,经过清理去除了标记和不必要的部分(如参考文献等)。数据集支持的任务是fill-mask,并且包含了多种语言的数据。数据集的格式为jsonl.xz,目前仅支持日期20221120。数据集的创建是通过下载维基百科的24种欧盟语言版本,并使用olm/wikipedia工具进行处理。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集名称: EUWikipedias: A dataset of Wikipedias in the EU languages

数据集简介: 该数据集包含所有欧盟语言的维基百科文章,数据来源于维基百科的转储数据,经过清洗处理,去除了Markdown格式和不需要的部分(如参考文献等)。

支持的语言:

  • bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv

数据集大小: 10M<n<100M

许可证: cc-by-4.0

多语言性: 多语言

任务类别: fill-mask

数据集结构

数据格式: jsonl.xz

数据分割: 仅有一个train分割

数据实例示例:

Source Size (MB) Words Documents Words/Document
20221120.all 86034 9506846949 26481379 359
20221120.bg 1261 88138772 285876 308
... ... ... ... ...
20221120.sv 2560 257872432 2556132 100

数据集创建

来源数据: 数据集是通过下载24种欧盟语言的维基百科数据创建的,具体参考olm/wikipedia

数据集准备: 更多信息请参考prepare_wikipedias.py

贡献者

感谢@JoelNiklaus为本数据集的贡献。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作