five

graelo/wikipedia

收藏
Hugging Face2023-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graelo/wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言的Wikipedia数据集,涵盖了多种语言。每个语言的配置信息包括特征(如id、url、title、text)、分割(如train)、下载大小和数据集大小等详细信息。数据集的任务类别包括文本生成和填充掩码,适用于语言建模和掩码语言建模任务。数据集的大小类别从小于1K到大于10M不等,涵盖了广泛的语言范围。

该数据集是一个多语言的Wikipedia数据集,涵盖了多种语言。每个语言的配置信息包括特征(如id、url、title、text)、分割(如train)、下载大小和数据集大小等详细信息。数据集的任务类别包括文本生成和填充掩码,适用于语言建模和掩码语言建模任务。数据集的大小类别从小于1K到大于10M不等,涵盖了广泛的语言范围。
提供机构:
graelo
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Wikipedia
  • 数据集ID: 无
  • 许可证:
    • cc-by-sa-3.0
    • gfdl

语言和任务

  • 语言创建者: 众包
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模

数据来源和多语言性

  • 数据来源: 原始数据
  • 多语言性: 多语言

数据集大小

  • 大小分类:
    • n<1K
    • 1K<n<10K
    • 10K<n<100K
    • 100K<n<1M
    • 1M<n<10M

支持的语言

  • 语言列表:
    • ab, ace, ady, af, ak, als, alt, am, ami, an, ang, anp, ar, arc, ary, arz, as, ast, atj, av, avk, awa, ay, az, azb, ba, ban, bar, bat-smg, be-x-old, bcl, be, bg, bh, bi, bjn, blk, bm, bn, bo, bpy, br, bs, bug, bxr, ca, cbk-zam, cdo, ce, ceb, ch, cho, chr, chy, ckb, co, cr, crh, cs, csb, cu, cv, cy, da, dag, de, din, diq, dsb, dty, dv, dz, ee, el, eml, eo, es, et, eu, ext, fa, fat, ff, fi, fiu-vro, fj, fo, fr, frp, frr, fur, fy, ga, gag, gan, gcr, gd, gl, glk, gn, gom, gor, got, gu, guc, gur, guw, gv, ha, hak, haw, he, hi, hif, ho, hr, hsb, ht, hu, hy, hyw, hz, ia, id, ie, ig, ii, ik, ilo, inh, io, is, it, iu, ja, jam, jbo, jv, ka, kaa, kab, kbd, kbp, kcg, kg, ki, kj, kk, kl, km, kn, ko, koi, kr, krc, ks, ksh, ku, kv, kw, ky, la, lad, lb, lbe, lez, lfn, lg, li, lij, lld, lmo, ln, lo, lrc, lt, ltg, lv, mad, mai, map-bms, mdf, mg, mh, mhr, mi, min, mk, ml, mn, mni, mnw, mr, mrj, ms, mt, mus, mwl, my, myv, mzn, na, nah, nap, nds-nl, nds, ne, new, ng, nia, nl, nn, no, nov, nqo, nrm, nso, nv, ny, oc, olo, om, or, os, pa, pag, pam, pap, pcd, pcm, pdc, pfl, pi, pih, pl, pms, pnb, pnt, ps, pt, pwn, qu, rm, rmy, rn, ro, roa-rup, roa-tara, ru, rue, rw, sa, sah, sat, sc, scn, sco, sd, se, sg, sh, shi, shn, si, simple, sk, skr, sl, sm, smn, sn, so, sq, sr, srn, ss, st, stq, su, sv, sw, szl, szy, ta, tay, tcy, te, tet, tg, th, ti, tk, tl, tn, to, tpi, tr, trv, ts, tt, tum, tw, ty, tyv, udm, ug, uk, ur, uz, ve, vec, vep, vi, vls, vo, wa, war, wo, wuu, xal, xh, xmf, yi, yo, za, zea, zh, zh-classical, zh-min-nan, zh-yue, zu

数据集结构

  • 配置名称: 20230601.ab 到 20230601.zu
  • 特征:
    • id: 字符串
    • url: 字符串
    • title: 字符串
    • text: 字符串
  • 分割:
    • 训练集
      • 字节数: 不同配置下不同
      • 示例数: 不同配置下不同
      • 下载大小: 不同配置下不同
      • 数据集大小: 不同配置下不同

以上信息概述了Wikipedia数据集的基本属性、语言支持、任务类型以及数据集的具体结构和大小。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,大规模文本语料库的构建对于语言模型的训练至关重要。该数据集基于维基百科这一全球性协作知识库,通过众包方式由全球志愿者持续贡献和编辑,涵盖了从常见语言到濒危语种的广泛内容。其构建过程遵循严格的版本控制,以2023年6月的快照为基础,确保了数据的时效性和一致性。每个语言版本均以独立配置形式组织,包含文章的唯一标识符、网址、标题及正文文本,结构清晰且便于后续处理。
使用方法
在语言模型预训练实践中,该数据集可作为高质量的多语言语料来源。研究者可通过HuggingFace数据集库直接加载特定语言配置,利用其标准化的文本字段进行掩码语言建模或自回归生成训练。对于低资源语言研究,可选取对应的小规模子集进行迁移学习实验;而大规模语种则适用于构建基础语言模型。数据处理时需注意不同语言字符编码的差异性,建议结合语言识别技术进行混合训练或单语精调。该结构化设计也支持跨语言信息检索、机器翻译质量评估等衍生应用。
背景与挑战
背景概述
维基百科数据集作为全球最大的多语言百科全书,其创建源于2001年由吉米·威尔士和拉里·桑格发起的协作项目,旨在构建一个自由、开放的知识库。该数据集在自然语言处理领域扮演着关键角色,为语言模型预训练、机器翻译和跨语言信息检索等任务提供了丰富的文本资源。其多语言特性覆盖了数百种语言变体,包括资源稀缺语言,极大地促进了语言技术的普惠发展,成为学术界和工业界不可或缺的基础数据源。
当前挑战
维基百科数据集在应用层面面临多语言文本质量不均的挑战,部分语言条目存在内容稀疏或结构不规范的问题,影响模型训练的泛化能力。构建过程中,数据采集需处理动态更新的维基百科版本,确保时间一致性;同时,多语言文本的清洗与标准化涉及复杂的语言特异性处理,如字符编码转换和方言识别。此外,数据许可协议的合规性要求严格遵循CC-BY-SA和GFDL等条款,增加了数据集分发的法律复杂性。
常用场景
经典使用场景
在自然语言处理领域,维基百科数据集作为大规模多语言文本语料库,其经典使用场景在于预训练语言模型。该数据集覆盖数百种语言,包含海量结构化知识条目,为模型提供了丰富的词汇、语法和语义信息。研究者通常利用其文本生成和掩码语言建模任务,训练诸如BERT、GPT等基础模型,使模型能够捕捉人类语言的深层规律和跨语言表征。
解决学术问题
维基百科数据集有效解决了自然语言处理中数据稀缺与语言多样性不足的学术难题。其多语言特性支持低资源语言的模型开发,缓解了传统语料库仅聚焦主流语言的局限。该数据集为跨语言迁移学习、语言理解评估提供了基准,推动了机器翻译、信息检索等任务的进展,对促进语言技术普惠性具有深远意义。
实际应用
在实际应用中,维基百科数据集广泛服务于智能搜索引擎、虚拟助手和内容推荐系统。其高质量文本可用于构建知识图谱,增强问答系统的准确性与覆盖范围。企业利用该数据集训练定制化语言模型,优化多语言客户服务与文档自动化处理,提升信息获取效率与用户体验。
数据集最近研究
最新研究方向
在自然语言处理领域,维基百科数据集作为多语言文本的宝库,持续推动着前沿研究的深化。当前研究聚焦于利用其覆盖的数百种语言资源,探索低资源语言的预训练模型优化,以应对语言技术发展不均衡的挑战。随着多语言大模型的兴起,该数据集在跨语言知识迁移和语言理解泛化方面扮演关键角色,相关热点事件如多语言BERT和XLM-R的演进,彰显了其在促进语言包容性技术发展中的深远影响。这些努力不仅提升了机器对全球多样文化的理解能力,也为构建更公平的人工智能系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作