five

erhwenkuo/wikipedia-zhtw

收藏
Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/wikipedia-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
维基百科数据集包含许多不同语言的文章。这个数据集是根据 Wikipedia dumps 里头 `zhwiki` 的中文下载档案来建构的。每个范例都包含一篇完整的维基百科文章的内容,并经过清理以去除不需要的部分(例如参考文献等)。
提供机构:
erhwenkuo
原始信息汇总

数据集概述

基本信息

  • 数据集名称: wikipedia-zhtw
  • 配置名称: 20231001
  • 许可协议: cc-by-sa-3.0
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 语言: 中文
  • 数据集大小: 1M<n<10M

数据结构

  • 特征:
    • id (str): 文章的 ID。
    • url (str): 文章的 URL。
    • title (str): 文章的标题。
    • text (str): 文章的文字内容。

数据分割

  • 训练集:
    • 字节数: 1682641991
    • 样本数: 1373081

数据集大小

  • 下载大小: 1064907519
  • 数据集大小: 1682641991

数据集示例

json { "id": "333", "url": "https://zh.wikipedia.org/wiki?curid=333", "title": "鄧麗君", "text": "鄧麗君,臺灣歌手、演員及慈善家,本名鄧麗筠。她是20世紀後期華語流行音樂具代表性的人物..." }

使用方法

python from datasets import load_dataset

指定要使用的数据 dump 的日期

load_dataset("erhwenkuo/wikipedia-zhtw", "20231001")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作