mwalol/wikipapa
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mwalol/wikipapa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含所有语言的维基百科文章,经过清理以去除标记和不需要的部分(如参考文献等)。数据集是从维基百科的dump文件构建的,每个语言有一个分割。每个样本包含一篇完整的维基百科文章的内容。数据集支持的任务主要是语言建模。
该数据集包含所有语言的维基百科文章,经过清理以去除标记和不需要的部分(如参考文献等)。数据集是从维基百科的dump文件构建的,每个语言有一个分割。每个样本包含一篇完整的维基百科文章的内容。数据集支持的任务主要是语言建模。
提供机构:
mwalol
原始信息汇总
数据集概述
数据集名称
- 名称: Wikipedia
- 别名: 无
数据集属性
语言创建者
- 创建方式: 众包(crowdsourced)
许可证
- 许可证类型:
- cc-by-sa-3.0
- gfdl
任务类别
- 任务类型:
- 文本生成(text-generation)
- 填充掩码(fill-mask)
任务标识
- 具体任务:
- 语言建模(language-modeling)
- 掩码语言建模(masked-language-modeling)
数据来源
- 来源类型: 原始(original)
多语言性
- 支持语言: 多语言(multilingual)
大小分类
- 数据集大小:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
- 1M<n<10M
支持语言
- 语言列表:
- aa, ab, ace, af, ak, als, am, an, ang, ar, arc, arz, as, ast, atj, av, ay, az, azb, ba, bar, bcl, be, bg, bh, bi, bjn, bm, bn, bo, bpy, br, bs, bug, bxr, ca, cbk, cdo, ce, ceb, ch, cho, chr, chy, ckb, co, cr, crh, cs, csb, cu, cv, cy, da, de, din, diq, dsb, dty, dv, dz, ee, el, eml, en, eo, es, et, eu, ext, fa, ff, fi, fj, fo, fr, frp, frr, fur, fy, ga, gag, gan, gd, gl, glk, gn, gom, gor, got, gu, gv, ha, hak, haw, he, hi, hif, ho, hr, hsb, ht, hu, hy, ia, id, ie, ig, ii, ik, ilo, inh, io, is, it, iu, ja, jam, jbo, jv, ka, kaa, kab, kbd, kbp, kg, ki, kj, kk, kl, km, kn, ko, koi, krc, ks, ksh, ku, kv, kw, ky, la, lad, lb, lbe, lez, lfn, lg, li, lij, lmo, ln, lo, lrc, lt, ltg, lv, lzh, mai, mdf, mg, mh, mhr, mi, min, mk, ml, mn, mr, mrj, ms, mt, mus, mwl, my, myv, mzn, na, nah, nap, nds, ne, new, ng, nl, nn, no, nov, nrm, nso, nv, ny, oc, olo, om, or, os, pa, pag, pam, pap, pcd, pdc, pfl, pi, pih, pl, pms, pnb, pnt, ps, pt, qu, rm, rmy, rn, ro, roa-rup, roa-tara, ru, rue, rw, sa, sah, sat, sc, scn, sco, sd, se, sg, sh, si, simple, sk, sl, sm, sn, so, sq, sr, srn, ss, st, stq, su, sv, sw, szl, ta, tcy, te, tet, tg, th, ti, tk, tl, tn, to, tpi, tr, ts, tt, tum, tw, ty, tyv, udm, ug, uk, ur, uz, ve, vec, vep, vi, vls, vo, wa, war, wo, wuu, xal, xh, xmf, yi, yo, za, zea, zh, zh-classical, zh-min-nan, zh-yue, zu
BCP47语言标识
- 语言标识: nds-nl
配置名称
- 配置列表:
- 20240101.aa
- 20220101.ab
- ...
- 20240101.zu
数据集结构
数据实例
- 示例结构:
id(str): 文章ID。url(str): 文章URL。title(str): 文章标题。text(str): 文章内容。
数据字段
- 字段列表:
id(str)url(str)title(str)text(str)
数据集创建
来源数据
- 初始数据收集和标准化:
- 数据来源: Wikipedia dump (https://dumps.wikimedia.org/)
- 数据处理工具:
mwparserfromhell
许可证信息
- 许可证详情:
- 文本和多数图像: CC BY-SA 3.0 和 GFDL
- 部分文本: 仅CC BY-SA
引用信息
-
引用格式:
@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }



