RyokoExtra/SuperWIKI-Cleaned
收藏Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/SuperWIKI-Cleaned
下载链接
链接失效反馈官方服务:
资源简介:
SuperWIKI Cleaned是一个专注于Wikipedia文章的数据集,来源于SuperWIKI的原始文件。该数据集经过处理,去除了所有‘通知’部分,提供了一个更简洁的Wikipedia版本,主要用于语言建模任务。数据以gzip压缩的jsonl文件形式存储,包含文章的ID、文本、标题、URL、过滤器信息、侧边信息框和图表等字段。
SuperWIKI Cleaned是一个专注于Wikipedia文章的数据集,来源于SuperWIKI的原始文件。该数据集经过处理,去除了所有‘通知’部分,提供了一个更简洁的Wikipedia版本,主要用于语言建模任务。数据以gzip压缩的jsonl文件形式存储,包含文章的ID、文本、标题、URL、过滤器信息、侧边信息框和图表等字段。
提供机构:
RyokoExtra
原始信息汇总
数据集概述
数据集名称
- 名称: SuperWIKI Cleaned
数据集描述
- 概述: SuperWIKI Cleaned 是一个专注于维基百科文章的数据集,由原始的 SuperWIKI 数据集衍生而来。
- 语言: 英语
- 任务: 主要用于语言建模,包括文本生成和填充掩码。
- 标签: 语言建模, 掩码语言建模
数据集结构
- 文件格式: 所有文件均为 gzip 压缩的 jsonl 格式。
- 数据实例: 每个实例包含文章ID、文本、标题、URL、过滤器信息、信息框HTML和图表字典。
- 数据字段:
id: 文章IDtext: 处理后的HTML文本,转换为Markdown格式,链接已移除,格式(加粗、斜体)保留。title: 维基百科文章标题url: 文章URLfilters: 数据集中的过滤器元数据issues: 从HTML中移除的自定义模板列表selectors: 用于文章的未重复CSS类选择器rituals: 用于移除更多“问题”模板的“仪式”列表templates: 文章中找到的所有模板
infobox_html: 从文本中提取的侧边信息框列表figures_dict: 从文本中提取的文章中使用的图表列表
数据集创建
- 来源数据: 数据集源自 SuperWIKI 数据集。
- 许可证: 遵循 Creative Commons Attribution-ShareAlike 3.0 Unported License 和 GNU Free Documentation License。
联系信息
- 联系人: KaraKaraWitch
许可证信息
- 许可证: cc-by-sa-3.0
贡献者
- 数据收集: KaraKaraWitch
- 计算资源提供: sirneggles



