erhwenkuo/wikipedia-zhtw
收藏Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/wikipedia-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
维基百科数据集包含许多不同语言的文章。这个数据集是根据 Wikipedia dumps 里头 `zhwiki` 的中文下载档案来建构的。每个范例都包含一篇完整的维基百科文章的内容,并经过清理以去除不需要的部分(例如参考文献等)。
提供机构:
erhwenkuo
原始信息汇总
数据集概述
基本信息
- 数据集名称: wikipedia-zhtw
- 配置名称: 20231001
- 许可协议: cc-by-sa-3.0
- 任务类别:
- 文本生成
- 填充掩码
- 语言: 中文
- 数据集大小: 1M<n<10M
数据结构
- 特征:
id (str): 文章的 ID。url (str): 文章的 URL。title (str): 文章的标题。text (str): 文章的文字内容。
数据分割
- 训练集:
- 字节数: 1682641991
- 样本数: 1373081
数据集大小
- 下载大小: 1064907519
- 数据集大小: 1682641991
数据集示例
json { "id": "333", "url": "https://zh.wikipedia.org/wiki?curid=333", "title": "鄧麗君", "text": "鄧麗君,臺灣歌手、演員及慈善家,本名鄧麗筠。她是20世紀後期華語流行音樂具代表性的人物..." }
使用方法
python from datasets import load_dataset
指定要使用的数据 dump 的日期
load_dataset("erhwenkuo/wikipedia-zhtw", "20231001")



