five

recursal/SuperWikiNEXT-32B

收藏
Hugging Face2024-06-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/recursal/SuperWikiNEXT-32B
下载链接
链接失效反馈
官方服务:
资源简介:
SuperWikiNEXT-32B是SuperWIKI数据集的增强版本,包含了来自大约60种高质量/精选语言的约32.44B(llama-2-7b-chat-tokenizer)或27.92B(RWKV Tokenizer)的标记。数据集是从Wikipedia HTML转储中手动构建的,每个示例包含一篇完整的Wikipedia文章内容。数据集主要用于语言建模任务,并且经过了广泛的HTML和Markdown过滤处理。

SuperWikiNEXT-32B is an enhanced version of the SuperWIKI dataset. It contains approximately 32.44 billion tokens (using the llama-2-7b-chat-tokenizer) or 27.92 billion tokens (using the RWKV Tokenizer) across roughly 60 high-quality curated languages. The dataset is manually constructed from Wikipedia HTML dumps, with each example containing the full content of a Wikipedia article. It is primarily intended for language modeling tasks and has undergone extensive HTML and Markdown filtering processing.
提供机构:
recursal
原始信息汇总

数据集概述

数据集描述

  • 名称: SuperWikiNEXT-32B
  • 版本: 增强版 SuperWIKI 数据集
  • 大小: 约 32.44B Tokens (llama-2-7b-chat-tokenizer) / 约 27.92B Tokens (RWKV Tokenizer)
  • 语言数量: 约 60 种高质量/精选语言
  • 许可证: cc-by-sa-4.0
  • 任务类别: 文本生成、填充掩码
  • 任务 ID: 语言建模、掩码语言建模
  • 多语言性: 多语言
  • 源数据: 原始数据

数据集来源

数据集总结

  • 内容: 包含所有语言的清洁维基百科文章
  • 构建方式: 从维基百科 HTML 转储手动构建,每个语言对应一个分割
  • 示例内容: 每个示例包含一篇完整的维基百科文章

支持的任务和排行榜

  • 主要用途: 语言建模

语言列表

  • 包含的维基百科:
    • af.wikipedia.org
    • ar.wikipedia.org
    • ast.wikipedia.org
    • az.wikipedia.org
    • be.wikipedia.org
    • bg.wikipedia.org
    • bn.wikipedia.org
    • ca.wikipedia.org
    • ce.wikipedia.org
    • cs.wikipedia.org
    • cy.wikipedia.org
    • da.wikipedia.org
    • de.wikipedia.org
    • el.wikipedia.org
    • en.wikipedia.org
    • eo.wikipedia.org
    • es.wikipedia.org
    • et.wikipedia.org
    • eu.wikipedia.org
    • fa.wikipedia.org
    • fi.wikipedia.org
    • fr.wikipedia.org
    • gl.wikipedia.org
    • he.wikipedia.org
    • hi.wikipedia.org
    • hr.wikipedia.org
    • hu.wikipedia.org
    • hy.wikipedia.org
    • id.wikipedia.org
    • it.wikipedia.org
    • ja.wikipedia.org
    • ka.wikipedia.org
    • kk.wikipedia.org
    • ko.wikipedia.org
    • la.wikipedia.org
    • lt.wikipedia.org
    • lv.wikipedia.org
    • min.wikipedia.org
    • mk.wikipedia.org
    • ms.wikipedia.org
    • my.wikipedia.org
    • nl.wikipedia.org
    • nn.wikipedia.org
    • no.wikipedia.org
    • pl.wikipedia.org
    • pt.wikipedia.org
    • ro.wikipedia.org
    • ru.wikipedia.org
    • sh.wikipedia.org
    • simple.wikipedia.org
    • sk.wikipedia.org
    • sl.wikipedia.org
    • sr.wikipedia.org
    • sv.wikipedia.org
    • ta.wikipedia.org
    • tg.wikipedia.org
    • th.wikipedia.org
    • tr.wikipedia.org
    • uk.wikipedia.org
    • ur.wikipedia.org
    • uz.wikipedia.org
    • vi.wikipedia.org
    • zh-min-nan.wikipedia.org
    • zh.wikipedia.org
    • zh-yue.wikipedia.org

维基百科选择标准

  • 高质量标准:
    1. 文章总数 >100,000
    2. 深度 >5.1

过滤方法

  • HTML 过滤:

    1. 使用 BeautifulSoup 解析文章内容
    2. 提取标题
    3. 跳过存根文章
    4. 跳过 Lsjbot 创建的文章
    5. 合并样式
    6. 移除原始 href 链接
    7. 移除引用模板
    8. 移除重定向模板
    9. 移除文章中 50% 以上的表格和列表
    10. 移除消息框和信息框
    11. 选择性移除空表格
    12. 清理 LaTeX 代码
    13. 清空 classdata-mw 属性
  • Markdown 过滤:

    1. 清理标点符号
    2. 收集文本长度
    3. 基于文本长度过滤(少于 1000 个字符的文章被丢弃)

数据键

  • 示例内容: json { "text": "Markdown 文本", "meta": { "title": "文章标题", "mostly_tablelist": false, "tablelist_ratio": [4082, 8644, 0.47223507635354], "infobox": ["提取的信息框"], "td_tables": [], "text_length": 5553 } }

数据集策展人

  • 策展人: KaraKaraWitch

许可信息

  • 维基百科文本和图像:
    • Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)
    • GNU Free Documentation License (GFDL)

引用信息

@ONLINE{superwiki-next, title = {SuperWikiNEXT-32B}, author = {KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/SuperWikipedia-NEXT}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作