five

community-datasets/swahili_news

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/swahili_news
下载链接
链接失效反馈
官方服务:
资源简介:
斯瓦希里语新闻分类数据集是一个用于文本分类任务的数据集,特别是多类别分类。数据集涵盖了六个不同的新闻主题:本地新闻、国际新闻、财经新闻、健康新闻、体育新闻和娱乐新闻。数据集包含训练集和测试集,训练集占75%,测试集占25%。该数据集的创建旨在填补使用斯瓦希里语创建NLP技术的空白,并帮助非洲大陆的AI从业者解决与斯瓦希里语相关的问题。数据集的语言为斯瓦希里语,数据来源于提供斯瓦希里语新闻的网站。

The Swahili News Classification Dataset is a dataset designed for text classification tasks, specifically multi-class classification. It covers six different news topics: Local news, International news, Finance news, Health news, Sports news, and Entertainment news. The dataset includes a train set and a test set, with the train set comprising 75% of the data and the test set comprising 25%. The dataset was created to address the gap in using the Swahili language for developing NLP technologies and to assist AI practitioners in Africa in solving problems related to the Swahili language. The dataset is in Swahili and was collected from websites that provide news in Swahili.
提供机构:
community-datasets
原始信息汇总

斯瓦希里语新闻分类数据集

数据集概述

基本信息

  • 数据集名称: Swahili : News Classification Dataset
  • 语言: 斯瓦希里语 (sw)
  • 许可证: CC BY 4.0
  • 数据集大小: 10K<n<100K
  • 任务类型: 文本分类
  • 任务子类型: 多类别分类

数据集结构

  • 特征:
    • text: 新闻文章 (string)
    • label: 新闻类别 (class_label)
      • 类别名称:
        • 0: uchumi (财经)
        • 1: kitaifa (国内)
        • 2: michezo (体育)
        • 3: kimataifa (国际)
        • 4: burudani (娱乐)
        • 5: afya (健康)

数据分割

  • 训练集:
    • 样本数量: 22207
    • 字节数: 49517855
  • 测试集:
    • 样本数量: 7338
    • 字节数: 16093496

数据集创建

  • 数据来源: 原始数据
  • 标注创建者: 专家生成
  • 语言创建者: 发现

下载与使用

  • 下载大小: 65618408 字节
  • 数据集大小: 65611351 字节

引用信息

@dataset{davis_david_2020_5514203, author = {Davis David}, title = {Swahili : News Classification Dataset}, month = dec, year = 2020, note = {{The news version contains both train and test sets.}}, publisher = {Zenodo}, version = {0.2}, doi = {10.5281/zenodo.5514203}, url = {https://doi.org/10.5281/zenodo.5514203} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作