RyokoExtra/SuperWIKI-Cleaned

Name: RyokoExtra/SuperWIKI-Cleaned
Creator: RyokoExtra
Published: 2023-09-08 00:49:03
License: 暂无描述

Hugging Face2023-09-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/RyokoExtra/SuperWIKI-Cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

SuperWIKI Cleaned是一个专注于Wikipedia文章的数据集，来源于SuperWIKI的原始文件。该数据集经过处理，去除了所有‘通知’部分，提供了一个更简洁的Wikipedia版本，主要用于语言建模任务。数据以gzip压缩的jsonl文件形式存储，包含文章的ID、文本、标题、URL、过滤器信息、侧边信息框和图表等字段。

提供机构：

RyokoExtra

原始信息汇总

数据集概述

数据集名称

名称: SuperWIKI Cleaned

数据集描述

概述: SuperWIKI Cleaned 是一个专注于维基百科文章的数据集，由原始的 SuperWIKI 数据集衍生而来。
语言: 英语
任务: 主要用于语言建模，包括文本生成和填充掩码。
标签: 语言建模, 掩码语言建模

数据集结构

文件格式: 所有文件均为 gzip 压缩的 jsonl 格式。
数据实例: 每个实例包含文章ID、文本、标题、URL、过滤器信息、信息框HTML和图表字典。
数据字段:
- id: 文章ID
- text: 处理后的HTML文本，转换为Markdown格式，链接已移除，格式（加粗、斜体）保留。
- title: 维基百科文章标题
- url: 文章URL
- filters: 数据集中的过滤器元数据
  - issues: 从HTML中移除的自定义模板列表
  - selectors: 用于文章的未重复CSS类选择器
  - rituals: 用于移除更多“问题”模板的“仪式”列表
  - templates: 文章中找到的所有模板
- infobox_html: 从文本中提取的侧边信息框列表
- figures_dict: 从文本中提取的文章中使用的图表列表

数据集创建

来源数据: 数据集源自 SuperWIKI 数据集。
许可证: 遵循 Creative Commons Attribution-ShareAlike 3.0 Unported License 和 GNU Free Documentation License。

联系信息

联系人: KaraKaraWitch

许可证信息

许可证: cc-by-sa-3.0

贡献者

数据收集: KaraKaraWitch
计算资源提供: sirneggles

5,000+

优质数据集

54 个

任务类型

进入经典数据集