graelo/wikipedia

Name: graelo/wikipedia
Creator: graelo
Published: 2023-09-10 06:10:08
License: 暂无描述

Hugging Face2023-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/graelo/wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言的Wikipedia数据集，涵盖了多种语言。每个语言的配置信息包括特征（如id、url、title、text）、分割（如train）、下载大小和数据集大小等详细信息。数据集的任务类别包括文本生成和填充掩码，适用于语言建模和掩码语言建模任务。数据集的大小类别从小于1K到大于10M不等，涵盖了广泛的语言范围。

提供机构：

graelo

原始信息汇总

数据集概述

基本信息

数据集名称: Wikipedia
数据集ID: 无
许可证:
- cc-by-sa-3.0
- gfdl

语言和任务

语言创建者: 众包
任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模

数据来源和多语言性

数据来源: 原始数据
多语言性: 多语言

数据集大小

大小分类:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
- 1M<n<10M

支持的语言

语言列表:
- ab, ace, ady, af, ak, als, alt, am, ami, an, ang, anp, ar, arc, ary, arz, as, ast, atj, av, avk, awa, ay, az, azb, ba, ban, bar, bat-smg, be-x-old, bcl, be, bg, bh, bi, bjn, blk, bm, bn, bo, bpy, br, bs, bug, bxr, ca, cbk-zam, cdo, ce, ceb, ch, cho, chr, chy, ckb, co, cr, crh, cs, csb, cu, cv, cy, da, dag, de, din, diq, dsb, dty, dv, dz, ee, el, eml, eo, es, et, eu, ext, fa, fat, ff, fi, fiu-vro, fj, fo, fr, frp, frr, fur, fy, ga, gag, gan, gcr, gd, gl, glk, gn, gom, gor, got, gu, guc, gur, guw, gv, ha, hak, haw, he, hi, hif, ho, hr, hsb, ht, hu, hy, hyw, hz, ia, id, ie, ig, ii, ik, ilo, inh, io, is, it, iu, ja, jam, jbo, jv, ka, kaa, kab, kbd, kbp, kcg, kg, ki, kj, kk, kl, km, kn, ko, koi, kr, krc, ks, ksh, ku, kv, kw, ky, la, lad, lb, lbe, lez, lfn, lg, li, lij, lld, lmo, ln, lo, lrc, lt, ltg, lv, mad, mai, map-bms, mdf, mg, mh, mhr, mi, min, mk, ml, mn, mni, mnw, mr, mrj, ms, mt, mus, mwl, my, myv, mzn, na, nah, nap, nds-nl, nds, ne, new, ng, nia, nl, nn, no, nov, nqo, nrm, nso, nv, ny, oc, olo, om, or, os, pa, pag, pam, pap, pcd, pcm, pdc, pfl, pi, pih, pl, pms, pnb, pnt, ps, pt, pwn, qu, rm, rmy, rn, ro, roa-rup, roa-tara, ru, rue, rw, sa, sah, sat, sc, scn, sco, sd, se, sg, sh, shi, shn, si, simple, sk, skr, sl, sm, smn, sn, so, sq, sr, srn, ss, st, stq, su, sv, sw, szl, szy, ta, tay, tcy, te, tet, tg, th, ti, tk, tl, tn, to, tpi, tr, trv, ts, tt, tum, tw, ty, tyv, udm, ug, uk, ur, uz, ve, vec, vep, vi, vls, vo, wa, war, wo, wuu, xal, xh, xmf, yi, yo, za, zea, zh, zh-classical, zh-min-nan, zh-yue, zu

数据集结构

配置名称: 20230601.ab 到 20230601.zu
特征:
- id: 字符串
- url: 字符串
- title: 字符串
- text: 字符串
分割:
- 训练集
  - 字节数: 不同配置下不同
  - 示例数: 不同配置下不同
  - 下载大小: 不同配置下不同
  - 数据集大小: 不同配置下不同

以上信息概述了Wikipedia数据集的基本属性、语言支持、任务类型以及数据集的具体结构和大小。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模文本语料库的构建对于语言模型的训练至关重要。该数据集基于维基百科这一全球性协作知识库，通过众包方式由全球志愿者持续贡献和编辑，涵盖了从常见语言到濒危语种的广泛内容。其构建过程遵循严格的版本控制，以2023年6月的快照为基础，确保了数据的时效性和一致性。每个语言版本均以独立配置形式组织，包含文章的唯一标识符、网址、标题及正文文本，结构清晰且便于后续处理。

使用方法

在语言模型预训练实践中，该数据集可作为高质量的多语言语料来源。研究者可通过HuggingFace数据集库直接加载特定语言配置，利用其标准化的文本字段进行掩码语言建模或自回归生成训练。对于低资源语言研究，可选取对应的小规模子集进行迁移学习实验；而大规模语种则适用于构建基础语言模型。数据处理时需注意不同语言字符编码的差异性，建议结合语言识别技术进行混合训练或单语精调。该结构化设计也支持跨语言信息检索、机器翻译质量评估等衍生应用。

背景与挑战

背景概述

维基百科数据集作为全球最大的多语言百科全书，其创建源于2001年由吉米·威尔士和拉里·桑格发起的协作项目，旨在构建一个自由、开放的知识库。该数据集在自然语言处理领域扮演着关键角色，为语言模型预训练、机器翻译和跨语言信息检索等任务提供了丰富的文本资源。其多语言特性覆盖了数百种语言变体，包括资源稀缺语言，极大地促进了语言技术的普惠发展，成为学术界和工业界不可或缺的基础数据源。

当前挑战

维基百科数据集在应用层面面临多语言文本质量不均的挑战，部分语言条目存在内容稀疏或结构不规范的问题，影响模型训练的泛化能力。构建过程中，数据采集需处理动态更新的维基百科版本，确保时间一致性；同时，多语言文本的清洗与标准化涉及复杂的语言特异性处理，如字符编码转换和方言识别。此外，数据许可协议的合规性要求严格遵循CC-BY-SA和GFDL等条款，增加了数据集分发的法律复杂性。

常用场景

经典使用场景

在自然语言处理领域，维基百科数据集作为大规模多语言文本语料库，其经典使用场景在于预训练语言模型。该数据集覆盖数百种语言，包含海量结构化知识条目，为模型提供了丰富的词汇、语法和语义信息。研究者通常利用其文本生成和掩码语言建模任务，训练诸如BERT、GPT等基础模型，使模型能够捕捉人类语言的深层规律和跨语言表征。

解决学术问题

维基百科数据集有效解决了自然语言处理中数据稀缺与语言多样性不足的学术难题。其多语言特性支持低资源语言的模型开发，缓解了传统语料库仅聚焦主流语言的局限。该数据集为跨语言迁移学习、语言理解评估提供了基准，推动了机器翻译、信息检索等任务的进展，对促进语言技术普惠性具有深远意义。

实际应用

在实际应用中，维基百科数据集广泛服务于智能搜索引擎、虚拟助手和内容推荐系统。其高质量文本可用于构建知识图谱，增强问答系统的准确性与覆盖范围。企业利用该数据集训练定制化语言模型，优化多语言客户服务与文档自动化处理，提升信息获取效率与用户体验。

数据集最近研究