recursal/SuperWikiNEXT-32B

Name: recursal/SuperWikiNEXT-32B
Creator: recursal
Published: 2024-06-10 12:22:28
License: 暂无描述

Hugging Face2024-06-10 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/recursal/SuperWikiNEXT-32B

下载链接

链接失效反馈

官方服务：

资源简介：

SuperWikiNEXT-32B是SuperWIKI数据集的增强版本，包含了来自大约60种高质量/精选语言的约32.44B（llama-2-7b-chat-tokenizer）或27.92B（RWKV Tokenizer）的标记。数据集是从Wikipedia HTML转储中手动构建的，每个示例包含一篇完整的Wikipedia文章内容。数据集主要用于语言建模任务，并且经过了广泛的HTML和Markdown过滤处理。

SuperWikiNEXT-32B is an enhanced version of the SuperWIKI dataset. It contains approximately 32.44 billion tokens (using the llama-2-7b-chat-tokenizer) or 27.92 billion tokens (using the RWKV Tokenizer) across roughly 60 high-quality curated languages. The dataset is manually constructed from Wikipedia HTML dumps, with each example containing the full content of a Wikipedia article. It is primarily intended for language modeling tasks and has undergone extensive HTML and Markdown filtering processing.

提供机构：

recursal

原始信息汇总

数据集概述

数据集描述

名称: SuperWikiNEXT-32B
版本: 增强版 SuperWIKI 数据集
大小: 约 32.44B Tokens (llama-2-7b-chat-tokenizer) / 约 27.92B Tokens (RWKV Tokenizer)
语言数量: 约 60 种高质量/精选语言
许可证: cc-by-sa-4.0
任务类别: 文本生成、填充掩码
任务 ID: 语言建模、掩码语言建模
多语言性: 多语言
源数据: 原始数据

数据集来源

源数据链接: https://dumps.wikimedia.org/other/enterprise_html/

数据集总结

内容: 包含所有语言的清洁维基百科文章
构建方式: 从维基百科 HTML 转储手动构建，每个语言对应一个分割
示例内容: 每个示例包含一篇完整的维基百科文章

支持的任务和排行榜

主要用途: 语言建模

语言列表

包含的维基百科:
- af.wikipedia.org
- ar.wikipedia.org
- ast.wikipedia.org
- az.wikipedia.org
- be.wikipedia.org
- bg.wikipedia.org
- bn.wikipedia.org
- ca.wikipedia.org
- ce.wikipedia.org
- cs.wikipedia.org
- cy.wikipedia.org
- da.wikipedia.org
- de.wikipedia.org
- el.wikipedia.org
- en.wikipedia.org
- eo.wikipedia.org
- es.wikipedia.org
- et.wikipedia.org
- eu.wikipedia.org
- fa.wikipedia.org
- fi.wikipedia.org
- fr.wikipedia.org
- gl.wikipedia.org
- he.wikipedia.org
- hi.wikipedia.org
- hr.wikipedia.org
- hu.wikipedia.org
- hy.wikipedia.org
- id.wikipedia.org
- it.wikipedia.org
- ja.wikipedia.org
- ka.wikipedia.org
- kk.wikipedia.org
- ko.wikipedia.org
- la.wikipedia.org
- lt.wikipedia.org
- lv.wikipedia.org
- min.wikipedia.org
- mk.wikipedia.org
- ms.wikipedia.org
- my.wikipedia.org
- nl.wikipedia.org
- nn.wikipedia.org
- no.wikipedia.org
- pl.wikipedia.org
- pt.wikipedia.org
- ro.wikipedia.org
- ru.wikipedia.org
- sh.wikipedia.org
- simple.wikipedia.org
- sk.wikipedia.org
- sl.wikipedia.org
- sr.wikipedia.org
- sv.wikipedia.org
- ta.wikipedia.org
- tg.wikipedia.org
- th.wikipedia.org
- tr.wikipedia.org
- uk.wikipedia.org
- ur.wikipedia.org
- uz.wikipedia.org
- vi.wikipedia.org
- zh-min-nan.wikipedia.org
- zh.wikipedia.org
- zh-yue.wikipedia.org

维基百科选择标准

高质量标准:
1. 文章总数 >100,000
2. 深度 >5.1

过滤方法

HTML 过滤:
1. 使用 BeautifulSoup 解析文章内容
2. 提取标题
3. 跳过存根文章
4. 跳过 Lsjbot 创建的文章
5. 合并样式
6. 移除原始 href 链接
7. 移除引用模板
8. 移除重定向模板
9. 移除文章中 50% 以上的表格和列表
10. 移除消息框和信息框
11. 选择性移除空表格
12. 清理 LaTeX 代码
13. 清空 class 和 data-mw 属性
Markdown 过滤:
1. 清理标点符号
2. 收集文本长度
3. 基于文本长度过滤（少于 1000 个字符的文章被丢弃）

数据键

示例内容: json { "text": "Markdown 文本", "meta": { "title": "文章标题", "mostly_tablelist": false, "tablelist_ratio": [4082, 8644, 0.47223507635354], "infobox": ["提取的信息框"], "td_tables": [], "text_length": 5553 } }

数据集策展人

策展人: KaraKaraWitch

许可信息

维基百科文本和图像:
- Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)
- GNU Free Documentation License (GFDL)

引用信息

@ONLINE{superwiki-next, title = {SuperWikiNEXT-32B}, author = {KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/SuperWikipedia-NEXT}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集