five

zetavg/zh-tw-wikipedia

收藏
Hugging Face2023-05-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zetavg/zh-tw-wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
台湾正体中文维基百科数据集包含了截至2023年5月的2,533,212篇条目的台湾正体文字内容。每条记录包括页面ID、HTML内容、Markdown内容、坐标信息、内容长度、最后修订时间、最新修订ID和原始页面标题。数据集于2023年5月1日至5月7日间从维基百科API获取,内容与维基百科网站的台湾正体版本一致,没有繁简体混杂的问题。数据集主要用于文本生成任务,语言为中文,数据规模在1M到10M之间。
提供机构:
zetavg
原始信息汇总

台灣正體中文維基百科 (zh-tw Wikipedia) 数据集概述

数据集基本信息

  • 数据集名称: 台灣正體中文維基百科 (zh-tw Wikipedia)
  • 数据集大小: 21930303312 字节
  • 下载大小: 0 字节
  • 数据集示例数量: 2533212
  • 语言: 中文 (zh)
  • 任务类别: 文本生成
  • 数据集类别: 1M<n<10M

数据集内容

  • 特征:
    • pageid: 整数类型 (int64),维基百科页面ID。
    • html: 字符串类型 (string),页面原始的HTML格式。
    • markdown: 字符串类型 (string),页面转换为Markdown格式。
    • coordinate: 结构体类型,包含以下字段:
      • globe: 字符串类型 (string)
      • lat: 浮点数类型 (float64),纬度。
      • lon: 浮点数类型 (float64),经度。
    • length: 整数类型 (int64),页面内容长度。
    • touched: 字符串类型 (string),页面的最后修订时间。
    • lastrevid: 整数类型 (int64),最新修订版本的修订ID。
    • original_title: 字符串类型 (string),维基百科未转换的原始页面标题。

数据集划分

  • 训练集:
    • 示例数量: 2533212
    • 数据大小: 21930303312 字节

数据集已知问题

  • 无法抽取为受限格式HTML的内容会遗失,如所有图片、图表、表格、参考资料列表及部分代码块。
  • 极少数内容过长的条目未被纳入。
  • 缺少页面标题 title 字段。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作