erhwenkuo/zhwikisource-zhtw
收藏Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/zhwikisource-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于维基文库(Wikisource)的中文下载文件构建的,包含清理后的完整文章内容。每个示例包括文章的ID、URL、标题、语言标识(用于区分中文简体或繁体)和文本内容。数据集适用于文本生成任务,主要用于中文简体或繁体的文本处理。
提供机构:
erhwenkuo
原始信息汇总
数据集概述
数据集信息
- 配置名称: 20231001
- 特征:
id: 字符串类型url: 字符串类型title: 字符串类型lang: 64位整数类型text: 字符串类型
- 分割:
train: 字节数为4441187554,示例数为311698
- 下载大小: 2980564378字节
- 数据集大小: 4441187554字节
配置
- 配置名称: 20231001
- 数据文件:
train: 路径为20231001/train-*
许可证
- 许可证: cc-by-sa-3.0
任务类别
- 任务类别: 文本生成
语言
- 语言: 中文
大小类别
- 大小类别: 100K<n<1M
数据集结构
- 示例: json { "id": "7183", "url": "https://zh.wikisource.org/wiki?curid=7183", "title": "相見歡 (李煜)", "lang": 1, "text": "無言獨上西樓,月如鉤。寂寞梧桐深院鎖清秋。剪不斷,理還亂,是離愁。別是一般滋味在心頭。" }
数据字段
id (str): 文章的IDurl (str): 文章的URLtitle (str): 文章的标题lang (int): 判断内容是中文简体或繁体- 0: UNKNOWN
- 1: TRADITIONAL (中文繁體)
- 2: SIMPLIFIED (中文簡體)
- 3: BOTH
- 4: MIXED
text (str): 文章的文字内容
使用方法
python from datasets import load_dataset
请在第二个参数去指定要使用的数据dump的日期
load_dataset("erhwenkuo/zhwikisource-zhtw", "20231001")
引用信息
@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }



