erhwenkuo/wikinews-zhtw
收藏Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/wikinews-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于维基新闻(Wikinews)的中文下载档案构建的,包含经过清理的完整维基新闻文章。每个示例包括文章的ID、URL、标题和文本内容。数据集的构建过程涉及下载、内容萃取、清理和格式转换等步骤。数据集适用于文本生成任务,遵循Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和GNU Free Documentation License (GFDL)的许可。
提供机构:
erhwenkuo
原始信息汇总
数据集概述
数据集信息
- 配置名称: 20231001
- 特征:
id: 字符串类型url: 字符串类型title: 字符串类型text: 字符串类型
- 分割:
train: 包含 9827 个样本,大小为 13647957 字节
- 下载大小: 8803739 字节
- 数据集大小: 13647957 字节
配置
- 配置名称: 20231001
- 数据文件:
train: 路径为 20231001/train-*
许可
- 许可: cc-by-sa-3.0
任务类别
- 任务类别: 文本生成
语言
- 语言: 中文
大小类别
- 大小类别: 1K<n<10K



