five

jslin09/wikipedia_tw

收藏
Hugging Face2024-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jslin09/wikipedia_tw
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是从维基百科20240420发布的繁体中文版打包档中解析出来的,经过wikitextparser移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个字段:条目标题(title)和条目内容(article)。原始总条目数为4,451,426,其中有1,415,676条有内容的条目。数据集建议使用parquet格式下载使用。

本数据集是从维基百科20240420发布的繁体中文版打包档中解析出来的,经过wikitextparser移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个字段:条目标题(title)和条目内容(article)。原始总条目数为4,451,426,其中有1,415,676条有内容的条目。数据集建议使用parquet格式下载使用。
提供机构:
jslin09
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-4.0
  • 语言: 中文
  • 多语言性: 单语种
  • 名称: wiki_tw
  • 大小: 100M<n<1B
  • 来源: 维基百科

数据集特征

  • 字段:
    • title: 字符串类型,表示条目名称。
    • article: 字符串类型,表示条目内容。

数据处理

  • 数据集解析自维基百科2024年4月20日发布的繁体中文版打包档。
  • 使用 wikitextparser 移除Wiki标记。
  • 利用 OpenCC 进行简体中文到繁体中文的转换。

数据统计

  • 总条目数: 4,451,426
  • 有内容的条目数: 1,415,676
  • 无法自动去标记的条目数: 3,035,750

使用建议

  • 建议使用 Parquet 格式下载和使用数据集,以适应其庞大的数据量。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作