recursal/SuperWikiNEXT-32B
收藏Hugging Face2024-06-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/recursal/SuperWikiNEXT-32B
下载链接
链接失效反馈官方服务:
资源简介:
SuperWikiNEXT-32B是SuperWIKI数据集的增强版本,包含了来自大约60种高质量/精选语言的约32.44B(llama-2-7b-chat-tokenizer)或27.92B(RWKV Tokenizer)的标记。数据集是从Wikipedia HTML转储中手动构建的,每个示例包含一篇完整的Wikipedia文章内容。数据集主要用于语言建模任务,并且经过了广泛的HTML和Markdown过滤处理。
SuperWikiNEXT-32B is an enhanced version of the SuperWIKI dataset. It contains approximately 32.44 billion tokens (using the llama-2-7b-chat-tokenizer) or 27.92 billion tokens (using the RWKV Tokenizer) across roughly 60 high-quality curated languages. The dataset is manually constructed from Wikipedia HTML dumps, with each example containing the full content of a Wikipedia article. It is primarily intended for language modeling tasks and has undergone extensive HTML and Markdown filtering processing.
提供机构:
recursal
原始信息汇总
数据集概述
数据集描述
- 名称: SuperWikiNEXT-32B
- 版本: 增强版 SuperWIKI 数据集
- 大小: 约 32.44B Tokens (llama-2-7b-chat-tokenizer) / 约 27.92B Tokens (RWKV Tokenizer)
- 语言数量: 约 60 种高质量/精选语言
- 许可证: cc-by-sa-4.0
- 任务类别: 文本生成、填充掩码
- 任务 ID: 语言建模、掩码语言建模
- 多语言性: 多语言
- 源数据: 原始数据
数据集来源
数据集总结
- 内容: 包含所有语言的清洁维基百科文章
- 构建方式: 从维基百科 HTML 转储手动构建,每个语言对应一个分割
- 示例内容: 每个示例包含一篇完整的维基百科文章
支持的任务和排行榜
- 主要用途: 语言建模
语言列表
- 包含的维基百科:
- af.wikipedia.org
- ar.wikipedia.org
- ast.wikipedia.org
- az.wikipedia.org
- be.wikipedia.org
- bg.wikipedia.org
- bn.wikipedia.org
- ca.wikipedia.org
- ce.wikipedia.org
- cs.wikipedia.org
- cy.wikipedia.org
- da.wikipedia.org
- de.wikipedia.org
- el.wikipedia.org
- en.wikipedia.org
- eo.wikipedia.org
- es.wikipedia.org
- et.wikipedia.org
- eu.wikipedia.org
- fa.wikipedia.org
- fi.wikipedia.org
- fr.wikipedia.org
- gl.wikipedia.org
- he.wikipedia.org
- hi.wikipedia.org
- hr.wikipedia.org
- hu.wikipedia.org
- hy.wikipedia.org
- id.wikipedia.org
- it.wikipedia.org
- ja.wikipedia.org
- ka.wikipedia.org
- kk.wikipedia.org
- ko.wikipedia.org
- la.wikipedia.org
- lt.wikipedia.org
- lv.wikipedia.org
- min.wikipedia.org
- mk.wikipedia.org
- ms.wikipedia.org
- my.wikipedia.org
- nl.wikipedia.org
- nn.wikipedia.org
- no.wikipedia.org
- pl.wikipedia.org
- pt.wikipedia.org
- ro.wikipedia.org
- ru.wikipedia.org
- sh.wikipedia.org
- simple.wikipedia.org
- sk.wikipedia.org
- sl.wikipedia.org
- sr.wikipedia.org
- sv.wikipedia.org
- ta.wikipedia.org
- tg.wikipedia.org
- th.wikipedia.org
- tr.wikipedia.org
- uk.wikipedia.org
- ur.wikipedia.org
- uz.wikipedia.org
- vi.wikipedia.org
- zh-min-nan.wikipedia.org
- zh.wikipedia.org
- zh-yue.wikipedia.org
维基百科选择标准
- 高质量标准:
- 文章总数
>100,000 - 深度
>5.1
- 文章总数
过滤方法
-
HTML 过滤:
- 使用 BeautifulSoup 解析文章内容
- 提取标题
- 跳过存根文章
- 跳过 Lsjbot 创建的文章
- 合并样式
- 移除原始
href链接 - 移除引用模板
- 移除重定向模板
- 移除文章中 50% 以上的表格和列表
- 移除消息框和信息框
- 选择性移除空表格
- 清理 LaTeX 代码
- 清空
class和data-mw属性
-
Markdown 过滤:
- 清理标点符号
- 收集文本长度
- 基于文本长度过滤(少于 1000 个字符的文章被丢弃)
数据键
- 示例内容: json { "text": "Markdown 文本", "meta": { "title": "文章标题", "mostly_tablelist": false, "tablelist_ratio": [4082, 8644, 0.47223507635354], "infobox": ["提取的信息框"], "td_tables": [], "text_length": 5553 } }
数据集策展人
- 策展人: KaraKaraWitch
许可信息
- 维基百科文本和图像:
- Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)
- GNU Free Documentation License (GFDL)
引用信息
@ONLINE{superwiki-next, title = {SuperWikiNEXT-32B}, author = {KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/SuperWikipedia-NEXT}}, }



