zetavg/zh-tw-wikipedia
收藏Hugging Face2023-05-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zetavg/zh-tw-wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
台湾正体中文维基百科数据集包含了截至2023年5月的2,533,212篇条目的台湾正体文字内容。每条记录包括页面ID、HTML内容、Markdown内容、坐标信息、内容长度、最后修订时间、最新修订ID和原始页面标题。数据集于2023年5月1日至5月7日间从维基百科API获取,内容与维基百科网站的台湾正体版本一致,没有繁简体混杂的问题。数据集主要用于文本生成任务,语言为中文,数据规模在1M到10M之间。
提供机构:
zetavg
原始信息汇总
台灣正體中文維基百科 (zh-tw Wikipedia) 数据集概述
数据集基本信息
- 数据集名称: 台灣正體中文維基百科 (zh-tw Wikipedia)
- 数据集大小: 21930303312 字节
- 下载大小: 0 字节
- 数据集示例数量: 2533212
- 语言: 中文 (zh)
- 任务类别: 文本生成
- 数据集类别: 1M<n<10M
数据集内容
- 特征:
pageid: 整数类型 (int64),维基百科页面ID。html: 字符串类型 (string),页面原始的HTML格式。markdown: 字符串类型 (string),页面转换为Markdown格式。coordinate: 结构体类型,包含以下字段:globe: 字符串类型 (string)lat: 浮点数类型 (float64),纬度。lon: 浮点数类型 (float64),经度。
length: 整数类型 (int64),页面内容长度。touched: 字符串类型 (string),页面的最后修订时间。lastrevid: 整数类型 (int64),最新修订版本的修订ID。original_title: 字符串类型 (string),维基百科未转换的原始页面标题。
数据集划分
- 训练集:
- 示例数量: 2533212
- 数据大小: 21930303312 字节
数据集已知问题
- 无法抽取为受限格式HTML的内容会遗失,如所有图片、图表、表格、参考资料列表及部分代码块。
- 极少数内容过长的条目未被纳入。
- 缺少页面标题
title字段。



