five

jslin09/wikisource_tw

收藏
Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jslin09/wikisource_tw
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是从维基文库20240120发布的打包档中解析出来的,使用了wikitextparser工具移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个主要字段:条目标题(title)和条目内容(article)。原始数据包含1,057,179个条目,所有条目都有标题和内容,但有166个条目无法自动去标记。数据集建议使用parquet格式下载,因为数据量较大,可能不适合在个人电脑上处理。

本数据集是从维基文库20240120发布的打包档中解析出来的,使用了wikitextparser工具移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个主要字段:条目标题(title)和条目内容(article)。原始数据包含1,057,179个条目,所有条目都有标题和内容,但有166个条目无法自动去标记。数据集建议使用parquet格式下载,因为数据量较大,可能不适合在个人电脑上处理。
提供机构:
jslin09
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-4.0
  • 语言: 中文
  • 多语言性: 单语种
  • 数据集名称: wiki_tw
  • 数据集大小: 100M<n<1B
  • 源数据集: 维基文库

数据集特征

  • 特征:
    • 名称: title
      • 数据类型: string
    • 名称: article
      • 数据类型: string

数据集内容

  • 数据来源: 解析自维基文库于20240120发布的打包文件,使用wikitextparser移除Wiki标记。
  • 处理过程: 原始打包文件内容简繁混杂,使用OpenCC进行简转繁处理。
  • 数据统计:
    • 原始总条目数: 1,057,179条目
    • 条目标题数: 1,057,179个
    • 条目内容数: 1,057,179个
    • 无法自动去标记的条目数: 166
    • 有内容的条目数: 1,057,179

使用建议

  • 数据集大小: 由于数据集内容庞大,建议使用parquet格式下载使用。
  • 数据清洗: 数据集中有不少内容为“#REDIRECT”或“#重定向”的条目,建议未来推出修正版进行清洗。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作