jslin09/wikisource_tw
收藏Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jslin09/wikisource_tw
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是从维基文库20240120发布的打包档中解析出来的,使用了wikitextparser工具移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个主要字段:条目标题(title)和条目内容(article)。原始数据包含1,057,179个条目,所有条目都有标题和内容,但有166个条目无法自动去标记。数据集建议使用parquet格式下载,因为数据量较大,可能不适合在个人电脑上处理。
本数据集是从维基文库20240120发布的打包档中解析出来的,使用了wikitextparser工具移除Wiki标记,并利用OpenCC进行简转繁处理。数据集包含两个主要字段:条目标题(title)和条目内容(article)。原始数据包含1,057,179个条目,所有条目都有标题和内容,但有166个条目无法自动去标记。数据集建议使用parquet格式下载,因为数据量较大,可能不适合在个人电脑上处理。
提供机构:
jslin09
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 语言: 中文
- 多语言性: 单语种
- 数据集名称: wiki_tw
- 数据集大小: 100M<n<1B
- 源数据集: 维基文库
数据集特征
- 特征:
- 名称: title
- 数据类型: string
- 名称: article
- 数据类型: string
- 名称: title
数据集内容
- 数据来源: 解析自维基文库于20240120发布的打包文件,使用wikitextparser移除Wiki标记。
- 处理过程: 原始打包文件内容简繁混杂,使用OpenCC进行简转繁处理。
- 数据统计:
- 原始总条目数: 1,057,179条目
- 条目标题数: 1,057,179个
- 条目内容数: 1,057,179个
- 无法自动去标记的条目数: 166
- 有内容的条目数: 1,057,179
使用建议
- 数据集大小: 由于数据集内容庞大,建议使用parquet格式下载使用。
- 数据清洗: 数据集中有不少内容为“#REDIRECT”或“#重定向”的条目,建议未来推出修正版进行清洗。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



