AWeirdDev/zh-tw-articles-2k
收藏Hugging Face2024-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AWeirdDev/zh-tw-articles-2k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为zh-tw-articles-2k,包含了从台湾新闻网站(https://www.storm.mg)于2024年3月爬取的新闻文章。数据集大小为5.0MB,包含2000行数据,每行数据包含image, title, content, tag, author, timestamp, link等特征。数据集主要用于文本生成任务,并带有医疗、金融和webdataset标签。
该数据集名为zh-tw-articles-2k,包含了从台湾新闻网站(https://www.storm.mg)于2024年3月爬取的新闻文章。数据集大小为5.0MB,包含2000行数据,每行数据包含image, title, content, tag, author, timestamp, link等特征。数据集主要用于文本生成任务,并带有医疗、金融和webdataset标签。
提供机构:
AWeirdDev
原始信息汇总
zh-tw-articles-2k 数据集概述
基本信息
- 语言: 中文
- 许可证: MIT
- 大小类别: 1K<n<10K
- 任务类别: 文本生成
- 标签: 医疗, 财经, webdataset
- 数据集名称: zh-tw-articles-2k
数据集特征
- 特征:
image: 字符串title: 字符串content: 字符串tag: 字符串author: 字符串timestamp: 字符串link: 字符串
数据集分割
- 训练集:
- 名称: train
- 字节数: 5294263
- 样本数: 2000
下载与数据集大小
- 下载大小: 3541689 字节
- 数据集大小: 5294263 字节
配置
- 默认配置:
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:
数据集描述
- 来源: 从 (https://www.storm.mg) 爬取的台湾新闻文章,时间:2024年3月
- 大小: 5.0MB (5294263 字节)
- 行数: 2000
- 页面数: 100
使用方法
- 使用 🤗 Datasets 下载、使用或修改此数据集: python from datasets import load_dataset dataset = load_dataset("AWeirdDev/zh-tw-articles-2k")



