five

erhwenkuo/zhwikisource-zhtw

收藏
Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/zhwikisource-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于维基文库(Wikisource)的中文下载文件构建的,包含清理后的完整文章内容。每个示例包括文章的ID、URL、标题、语言标识(用于区分中文简体或繁体)和文本内容。数据集适用于文本生成任务,主要用于中文简体或繁体的文本处理。
提供机构:
erhwenkuo
原始信息汇总

数据集概述

数据集信息

  • 配置名称: 20231001
  • 特征:
    • id: 字符串类型
    • url: 字符串类型
    • title: 字符串类型
    • lang: 64位整数类型
    • text: 字符串类型
  • 分割:
    • train: 字节数为4441187554,示例数为311698
  • 下载大小: 2980564378字节
  • 数据集大小: 4441187554字节

配置

  • 配置名称: 20231001
  • 数据文件:
    • train: 路径为20231001/train-*

许可证

  • 许可证: cc-by-sa-3.0

任务类别

  • 任务类别: 文本生成

语言

  • 语言: 中文

大小类别

  • 大小类别: 100K<n<1M

数据集结构

  • 示例: json { "id": "7183", "url": "https://zh.wikisource.org/wiki?curid=7183", "title": "相見歡 (李煜)", "lang": 1, "text": "無言獨上西樓,月如鉤。寂寞梧桐深院鎖清秋。剪不斷,理還亂,是離愁。別是一般滋味在心頭。" }

数据字段

  • id (str): 文章的ID
  • url (str): 文章的URL
  • title (str): 文章的标题
  • lang (int): 判断内容是中文简体或繁体
    • 0: UNKNOWN
    • 1: TRADITIONAL (中文繁體)
    • 2: SIMPLIFIED (中文簡體)
    • 3: BOTH
    • 4: MIXED
  • text (str): 文章的文字内容

使用方法

python from datasets import load_dataset

请在第二个参数去指定要使用的数据dump的日期

load_dataset("erhwenkuo/zhwikisource-zhtw", "20231001")

引用信息

@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作