five

Netruk44/uesp-wiki-content

收藏
Hugging Face2023-04-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Netruk44/uesp-wiki-content
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Unofficial Elder Scrolls Pages(UESP)的页面内容。数据来源于uesp.net的dumps子域,具体是从名为uespwiki-2022-02-09-current.xml.bz2的文件中提取的,并使用mediawiki-dump工具进行处理。数据集的特征包括namespace、page_id、url、title、content、revision_id、timestamp、contributor和content_cleaned等字段。数据集分为训练集,包含324,930个样本,总大小为757,966,297字节。许可证为Creative Commons by-sa 2.5 License。

该数据集包含来自Unofficial Elder Scrolls Pages(UESP)的页面内容。数据来源于uesp.net的dumps子域,具体是从名为uespwiki-2022-02-09-current.xml.bz2的文件中提取的,并使用mediawiki-dump工具进行处理。数据集的特征包括namespace、page_id、url、title、content、revision_id、timestamp、contributor和content_cleaned等字段。数据集分为训练集,包含324,930个样本,总大小为757,966,297字节。许可证为Creative Commons by-sa 2.5 License。
提供机构:
Netruk44
原始信息汇总

数据集概述

数据集名称

uesp-wiki-content

数据集内容

包含来自Unofficial Elder Scrolls Pages的页面内容。

数据集特征

  • namespace: int64
  • page_id: int64
  • url: string
  • title: string
  • content: string
  • revision_id: int64
  • timestamp: string
  • contributor: string
  • content_cleaned: string

数据集分割

  • train:
    • 数据量: 757966297 字节
    • 示例数: 324930

数据集大小

  • 下载大小: 363485644 字节
  • 数据集大小: 757966297 字节

许可证

Creative Commons by-sa 2.5 License

语言

  • en

大小分类

100K<n<1M

注意事项

  • content_cleaned 列存在已知问题,可能偶尔缺少特殊链接类型的单词。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作