reyoung/wikipedia
收藏Hugging Face2023-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reyoung/wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含所有语言的清理后的维基百科文章。这些文章是从维基百科的dump文件中构建的,每个示例包含一篇完整的维基百科文章的内容,并进行了清理以去除标记和不需要的部分(如参考文献等)。数据集支持多语言,并且可以用于语言建模任务。数据集的创建使用了`mwparserfromhell`工具进行解析,并使用`multiprocess`进行并行化处理。
This dataset contains cleaned Wikipedia articles across all languages. These articles are built from Wikipedia dump files, with each sample containing the full content of a complete Wikipedia article that has been cleaned to remove markup and unwanted sections such as references. The dataset supports multilingual usage and can be applied to language modeling tasks. It was created using the `mwparserfromhell` tool for parsing, and employed `multiprocess` for parallel processing.
提供机构:
reyoung
原始信息汇总
数据集概述
数据集名称
Wikipedia
数据集摘要
Wikipedia数据集包含所有语言的清洁文章。数据集从Wikipedia转储构建,每个语言有一个拆分。每个示例包含一个完整的Wikipedia文章的内容,并进行了清洁处理以去除Markdown和不需要的部分(如参考文献等)。
支持的任务
- 语言建模
- 掩码语言建模
语言
数据集支持多种语言,具体包括但不限于:
- aa
- ab
- ace
- af
- ak
- als
- am
- an
- ang
- ar
- arc
- arz
- as
- ast
- atj
- av
- ay
- az
- azb
- ba
- bar
- bcl
- be
- bg
- bh
- bi
- bjn
- bm
- bn
- bo
- bpy
- br
- bs
- bug
- bxr
- ca
- cbk
- cdo
- ce
- ceb
- ch
- cho
- chr
- chy
- ckb
- co
- cr
- crh
- cs
- csb
- cu
- cv
- cy
- da
- de
- din
- diq
- dsb
- dty
- dv
- dz
- ee
- el
- eml
- en
- eo
- es
- et
- eu
- ext
- fa
- ff
- fi
- fj
- fo
- fr
- frp
- frr
- fur
- fy
- ga
- gag
- gan
- gd
- gl
- glk
- gn
- gom
- gor
- got
- gu
- gv
- ha
- hak
- haw
- he
- hi
- hif
- ho
- hr
- hsb
- ht
- hu
- hy
- ia
- id
- ie
- ig
- ii
- ik
- ilo
- inh
- io
- is
- it
- iu
- ja
- jam
- jbo
- jv
- ka
- kaa
- kab
- kbd
- kbp
- kg
- ki
- kj
- kk
- kl
- km
- kn
- ko
- koi
- krc
- ks
- ksh
- ku
- kv
- kw
- ky
- la
- lad
- lb
- lbe
- lez
- lfn
- lg
- li
- lij
- lmo
- ln
- lo
- lrc
- lt
- ltg
- lv
- lzh
- mai
- mdf
- mg
- mh
- mhr
- mi
- min
- mk
- ml
- mn
- mr
- mrj
- ms
- mt
- mus
- mwl
- my
- myv
- mzn
- na
- nah
- nan
- nap
- nds
- ne
- new
- ng
- nl
- nn
- no
- nov
- nrf
- nso
- nv
- ny
- oc
- olo
- om
- or
- os
- pa
- pag
- pam
- pap
- pcd
- pdc
- pfl
- pi
- pih
- pl
- pms
- pnb
- pnt
- ps
- pt
- qu
- rm
- rmy
- rn
- ro
- ru
- rue
- rup
- rw
- sa
- sah
- sat
- sc
- scn
- sco
- sd
- se
- sg
- sgs
- sh
- si
- sk
- sl
- sm
- sn
- so
- sq
- sr
- srn
- ss
- st
- stq
- su
- sv
- sw
- szl
- ta
- tcy
- tdt
- te
- tg
- th
- ti
- tk
- tl
- tn
- to
- tpi
- tr
- ts
- tt
- tum
- tw
- ty
- tyv
- udm
- ug
- uk
- ur
- uz
- ve
- vec
- vep
- vi
- vls
- vo
- vro
- wa
- war
- wo
- wuu
- xal
- xh
- xmf
- yi
- yo
- yue
- za
- zea
- zh
- zu
数据集结构
数据实例
每个数据实例包含以下字段:
id(str): 文章ID。url(str): 文章URL。title(str): 文章标题。text(str): 文章文本内容。
数据集创建
来源数据
数据集构建自Wikipedia转储,使用mwparserfromhell工具解析文章,并利用multiprocess进行并行处理。
许可证
数据集文本和许多图像根据Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA) 和 GNU Free Documentation License (GFDL) 进行共同许可。



