jslin09/wikipedia_tw
收藏Hugging Face2024-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jslin09/wikipedia_tw
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是从维基百科20240420发布的繁体中文版打包档中解析出来的,经过wikitextparser移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个字段:条目标题(title)和条目内容(article)。原始总条目数为4,451,426,其中有1,415,676条有内容的条目。数据集建议使用parquet格式下载使用。
本数据集是从维基百科20240420发布的繁体中文版打包档中解析出来的,经过wikitextparser移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个字段:条目标题(title)和条目内容(article)。原始总条目数为4,451,426,其中有1,415,676条有内容的条目。数据集建议使用parquet格式下载使用。
提供机构:
jslin09
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 语言: 中文
- 多语言性: 单语种
- 名称: wiki_tw
- 大小: 100M<n<1B
- 来源: 维基百科
数据集特征
- 字段:
title: 字符串类型,表示条目名称。article: 字符串类型,表示条目内容。
数据处理
- 数据集解析自维基百科2024年4月20日发布的繁体中文版打包档。
- 使用
wikitextparser移除Wiki标记。 - 利用 OpenCC 进行简体中文到繁体中文的转换。
数据统计
- 总条目数: 4,451,426
- 有内容的条目数: 1,415,676
- 无法自动去标记的条目数: 3,035,750
使用建议
- 建议使用 Parquet 格式下载和使用数据集,以适应其庞大的数据量。



