five

mwalol/wikipapa

收藏
Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mwalol/wikipapa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含所有语言的维基百科文章,经过清理以去除标记和不需要的部分(如参考文献等)。数据集是从维基百科的dump文件构建的,每个语言有一个分割。每个样本包含一篇完整的维基百科文章的内容。数据集支持的任务主要是语言建模。

该数据集包含所有语言的维基百科文章,经过清理以去除标记和不需要的部分(如参考文献等)。数据集是从维基百科的dump文件构建的,每个语言有一个分割。每个样本包含一篇完整的维基百科文章的内容。数据集支持的任务主要是语言建模。
提供机构:
mwalol
原始信息汇总

数据集概述

数据集名称

  • 名称: Wikipedia
  • 别名: 无

数据集属性

语言创建者

  • 创建方式: 众包(crowdsourced)

许可证

  • 许可证类型:
    • cc-by-sa-3.0
    • gfdl

任务类别

  • 任务类型:
    • 文本生成(text-generation)
    • 填充掩码(fill-mask)

任务标识

  • 具体任务:
    • 语言建模(language-modeling)
    • 掩码语言建模(masked-language-modeling)

数据来源

  • 来源类型: 原始(original)

多语言性

  • 支持语言: 多语言(multilingual)

大小分类

  • 数据集大小:
    • n<1K
    • 1K<n<10K
    • 10K<n<100K
    • 100K<n<1M
    • 1M<n<10M

支持语言

  • 语言列表:
    • aa, ab, ace, af, ak, als, am, an, ang, ar, arc, arz, as, ast, atj, av, ay, az, azb, ba, bar, bcl, be, bg, bh, bi, bjn, bm, bn, bo, bpy, br, bs, bug, bxr, ca, cbk, cdo, ce, ceb, ch, cho, chr, chy, ckb, co, cr, crh, cs, csb, cu, cv, cy, da, de, din, diq, dsb, dty, dv, dz, ee, el, eml, en, eo, es, et, eu, ext, fa, ff, fi, fj, fo, fr, frp, frr, fur, fy, ga, gag, gan, gd, gl, glk, gn, gom, gor, got, gu, gv, ha, hak, haw, he, hi, hif, ho, hr, hsb, ht, hu, hy, ia, id, ie, ig, ii, ik, ilo, inh, io, is, it, iu, ja, jam, jbo, jv, ka, kaa, kab, kbd, kbp, kg, ki, kj, kk, kl, km, kn, ko, koi, krc, ks, ksh, ku, kv, kw, ky, la, lad, lb, lbe, lez, lfn, lg, li, lij, lmo, ln, lo, lrc, lt, ltg, lv, lzh, mai, mdf, mg, mh, mhr, mi, min, mk, ml, mn, mr, mrj, ms, mt, mus, mwl, my, myv, mzn, na, nah, nap, nds, ne, new, ng, nl, nn, no, nov, nrm, nso, nv, ny, oc, olo, om, or, os, pa, pag, pam, pap, pcd, pdc, pfl, pi, pih, pl, pms, pnb, pnt, ps, pt, qu, rm, rmy, rn, ro, roa-rup, roa-tara, ru, rue, rw, sa, sah, sat, sc, scn, sco, sd, se, sg, sh, si, simple, sk, sl, sm, sn, so, sq, sr, srn, ss, st, stq, su, sv, sw, szl, ta, tcy, te, tet, tg, th, ti, tk, tl, tn, to, tpi, tr, ts, tt, tum, tw, ty, tyv, udm, ug, uk, ur, uz, ve, vec, vep, vi, vls, vo, wa, war, wo, wuu, xal, xh, xmf, yi, yo, za, zea, zh, zh-classical, zh-min-nan, zh-yue, zu

BCP47语言标识

  • 语言标识: nds-nl

配置名称

  • 配置列表:
    • 20240101.aa
    • 20220101.ab
    • ...
    • 20240101.zu

数据集结构

数据实例

  • 示例结构:
    • id (str): 文章ID。
    • url (str): 文章URL。
    • title (str): 文章标题。
    • text (str): 文章内容。

数据字段

  • 字段列表:
    • id (str)
    • url (str)
    • title (str)
    • text (str)

数据集创建

来源数据

  • 初始数据收集和标准化:
    • 数据来源: Wikipedia dump (https://dumps.wikimedia.org/)
    • 数据处理工具: mwparserfromhell

许可证信息

  • 许可证详情:
    • 文本和多数图像: CC BY-SA 3.0 和 GFDL
    • 部分文本: 仅CC BY-SA

引用信息

  • 引用格式:

    @ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作