five

RyokoExtra/SuperWIKI-Cleaned

收藏
Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/SuperWIKI-Cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
SuperWIKI Cleaned是一个专注于Wikipedia文章的数据集,来源于SuperWIKI的原始文件。该数据集经过处理,去除了所有‘通知’部分,提供了一个更简洁的Wikipedia版本,主要用于语言建模任务。数据以gzip压缩的jsonl文件形式存储,包含文章的ID、文本、标题、URL、过滤器信息、侧边信息框和图表等字段。

SuperWIKI Cleaned是一个专注于Wikipedia文章的数据集,来源于SuperWIKI的原始文件。该数据集经过处理,去除了所有‘通知’部分,提供了一个更简洁的Wikipedia版本,主要用于语言建模任务。数据以gzip压缩的jsonl文件形式存储,包含文章的ID、文本、标题、URL、过滤器信息、侧边信息框和图表等字段。
提供机构:
RyokoExtra
原始信息汇总

数据集概述

数据集名称

  • 名称: SuperWIKI Cleaned

数据集描述

  • 概述: SuperWIKI Cleaned 是一个专注于维基百科文章的数据集,由原始的 SuperWIKI 数据集衍生而来。
  • 语言: 英语
  • 任务: 主要用于语言建模,包括文本生成和填充掩码。
  • 标签: 语言建模, 掩码语言建模

数据集结构

  • 文件格式: 所有文件均为 gzip 压缩的 jsonl 格式。
  • 数据实例: 每个实例包含文章ID、文本、标题、URL、过滤器信息、信息框HTML和图表字典。
  • 数据字段:
    • id: 文章ID
    • text: 处理后的HTML文本,转换为Markdown格式,链接已移除,格式(加粗、斜体)保留。
    • title: 维基百科文章标题
    • url: 文章URL
    • filters: 数据集中的过滤器元数据
      • issues: 从HTML中移除的自定义模板列表
      • selectors: 用于文章的未重复CSS类选择器
      • rituals: 用于移除更多“问题”模板的“仪式”列表
      • templates: 文章中找到的所有模板
    • infobox_html: 从文本中提取的侧边信息框列表
    • figures_dict: 从文本中提取的文章中使用的图表列表

数据集创建

联系信息

  • 联系人: KaraKaraWitch

许可证信息

  • 许可证: cc-by-sa-3.0

贡献者

  • 数据收集: KaraKaraWitch
  • 计算资源提供: sirneggles
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作