five

dsfsi/za-isizulu-siswati-news

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/za-isizulu-siswati-news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含IsiZulu新闻文章和标题以及Siswati新闻标题,数据来源于Isolezwe新闻网站和SABC新闻LigwalagwalaFM的Facebook页面。数据集经过注释处理,包含非ASCII字符和英语单词,需在模型训练前去除。数据集旨在为南非低资源语言IsiZulu和Siswati创建新闻分类模型。数据集使用IPTC NewsCodes作为分类标准,并移除了观察次数较少的类别。数据集包含完整类别数据和简化类别数据。

The dataset includes isiZulu news articles and headlines, as well as Siswati news headlines, sourced from the Isolezwe news website and the SABC news LigwalagwalaFM Facebook page. The data was collected and annotated to create a news categorization model for the low-resource languages of isiZulu and Siswati in South Africa. The dataset contains special characters, some English words, and non-ASCII encoded characters that must be processed before model training. Classification uses IPTC NewsCodes as categories, including both full and reduced category data.
提供机构:
dsfsi
原始信息汇总

数据集概述

数据集名称

za-isizulu-siswati-news-2022

数据集描述

该数据集包含isiZulu新闻(文章和标题)和Siswati新闻标题。数据来源于Isolezwe新闻网站和SABC新闻LigwalagwalaFM Facebook页面。

数据内容

  • isiZulu新闻文章
  • isiZulu新闻标题
  • Siswati新闻标题

数据处理

数据收集后,经过标注处理。数据集中包含特殊字符、一些英文单词和非ASCII编码字符,需要在模型训练前进行处理。

分类类别

使用IPTC NewsCodes作为分类标准,具体分类可见data/news-categories-iptc-newscodes.csv

数据集优化

移除了观测数量少于35的isiZulu类别和少于6的Siswati类别。数据集包含完整类别数据和简化类别数据。

数据集信息

完整数据集信息请参见data-statement.md

许可证

数据集遵循CC 4.0 BY SA许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作