dsfsi/za-isizulu-siswati-news
收藏Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/za-isizulu-siswati-news
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含IsiZulu新闻文章和标题以及Siswati新闻标题,数据来源于Isolezwe新闻网站和SABC新闻LigwalagwalaFM的Facebook页面。数据集经过注释处理,包含非ASCII字符和英语单词,需在模型训练前去除。数据集旨在为南非低资源语言IsiZulu和Siswati创建新闻分类模型。数据集使用IPTC NewsCodes作为分类标准,并移除了观察次数较少的类别。数据集包含完整类别数据和简化类别数据。
The dataset includes isiZulu news articles and headlines, as well as Siswati news headlines, sourced from the Isolezwe news website and the SABC news LigwalagwalaFM Facebook page. The data was collected and annotated to create a news categorization model for the low-resource languages of isiZulu and Siswati in South Africa. The dataset contains special characters, some English words, and non-ASCII encoded characters that must be processed before model training. Classification uses IPTC NewsCodes as categories, including both full and reduced category data.
提供机构:
dsfsi
原始信息汇总
数据集概述
数据集名称
za-isizulu-siswati-news-2022
数据集描述
该数据集包含isiZulu新闻(文章和标题)和Siswati新闻标题。数据来源于Isolezwe新闻网站和SABC新闻LigwalagwalaFM Facebook页面。
数据内容
- isiZulu新闻文章
- isiZulu新闻标题
- Siswati新闻标题
数据处理
数据收集后,经过标注处理。数据集中包含特殊字符、一些英文单词和非ASCII编码字符,需要在模型训练前进行处理。
分类类别
使用IPTC NewsCodes作为分类标准,具体分类可见data/news-categories-iptc-newscodes.csv。
数据集优化
移除了观测数量少于35的isiZulu类别和少于6的Siswati类别。数据集包含完整类别数据和简化类别数据。
数据集信息
完整数据集信息请参见data-statement.md。
许可证
数据集遵循CC 4.0 BY SA许可证。



