five

haohaa/shan-news-shannews_org

收藏
Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/haohaa/shan-news-shannews_org
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从shannews.org网站抓取的,该网站是一个私有的非营利组织,提供Shan语言的新闻。数据集包含日期、链接、标题、内容和类别等特征,主要用于文本生成任务。数据集的语言为Shan语,版本日期为2024年5月18日。

该数据集是从shannews.org网站抓取的,该网站是一个私有的非营利组织,提供Shan语言的新闻。数据集包含日期、链接、标题、内容和类别等特征,主要用于文本生成任务。数据集的语言为Shan语,版本日期为2024年5月18日。
提供机构:
haohaa
原始信息汇总

数据集概述

基本信息

  • 许可证: CC0-1.0
  • 语言: shn

数据集结构

  • 特征:
    • date: 数据类型为字符串
    • link: 数据类型为字符串
    • title: 数据类型为字符串
    • content: 数据类型为字符串
    • categories: 数据类型为字符串

数据分割

  • 训练集:
    • 大小: 74546467 字节
    • 示例数量: 11036

数据集大小

  • 下载大小: 24418824 字节
  • 数据集总大小: 74546467 字节

配置

  • 默认配置:
    • 数据文件路径: data/train-*

任务类别

  • 文本生成

数据集大小类别

  • 范围: 10K<n<100K
二维码
社区交流群
二维码
科研交流群
商业服务