masakhane/masakhanews
收藏Hugging Face2025-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/masakhanews
下载链接
链接失效反馈官方服务:
资源简介:
MasakhaNEWS是非洲16种广泛使用语言中最大的公开新闻主题分类数据集。该数据集包含训练集、验证集和测试集,适用于新闻主题分类任务,如将新闻文章分类为商业、体育或政治等主题。数据集支持的语言包括阿姆哈拉语、英语、法语、豪萨语、伊博语、林加拉语、卢干达语、奥罗莫语、尼日利亚皮钦语、隆迪语、绍纳语、索马里语、斯瓦希里语、提格里尼亚语、科萨语和约鲁巴语。
提供机构:
masakhane
原始信息汇总
数据集概述
数据集名称: MasakhaNEWS
数据集简介: MasakhaNEWS 是非洲广泛使用的16种语言的新闻主题分类最大公开数据集。该数据集包含训练、验证和测试集,适用于所有16种语言。
支持的任务: 新闻主题分类,用于将新闻文章分类为商业、娱乐、健康、政治、宗教、体育和技术等主题。
语言: 数据集包含16种语言,包括Amharic、English、French、Hausa、Igbo、Lingala、Luganda、Oromo、Nigerian Pidgin、Rundi、Shona、Somali、Swahili、Tigrinya、Xhosa和Yoruba。
数据集结构:
- 数据实例: 每个数据点包含标签、标题、文本、标题文本和URL。
- 数据字段: 包括新闻主题ID、新闻标题、新闻正文、标题与正文的组合以及网站地址。
- 数据分割: 所有语言均有训练、验证和测试三个分割,每种语言的分割大小不同。
数据集创建:
- 来源数据: 数据来源于新闻领域,由新闻机构和报纸的记者和作家生产。
- 注释: 注释由Masakhane组织的专家生成。
使用数据的考虑:
- 已知限制: 数据集仅包含新闻文本,可能限制了开发系统在其他领域的应用。
附加信息:
- 许可证: 数据集使用AFL-3.0许可证。
- 引用信息: 提供BibTex格式的引用参考。
数据集详细信息
数据集大小: 1K<n<10K
多语言性: 多语言
数据集标签创建者: 专家生成
数据集语言创建者: 专家生成
数据集来源: 原始数据
数据集标签: 新闻主题、MasakhaNEWS、Masakhane
任务类别: 文本分类
任务ID: 主题分类



