five

masakhane/masakhanews

收藏
Hugging Face2025-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/masakhanews
下载链接
链接失效反馈
官方服务:
资源简介:
MasakhaNEWS是非洲16种广泛使用语言中最大的公开新闻主题分类数据集。该数据集包含训练集、验证集和测试集,适用于新闻主题分类任务,如将新闻文章分类为商业、体育或政治等主题。数据集支持的语言包括阿姆哈拉语、英语、法语、豪萨语、伊博语、林加拉语、卢干达语、奥罗莫语、尼日利亚皮钦语、隆迪语、绍纳语、索马里语、斯瓦希里语、提格里尼亚语、科萨语和约鲁巴语。
提供机构:
masakhane
原始信息汇总

数据集概述

数据集名称: MasakhaNEWS

数据集简介: MasakhaNEWS 是非洲广泛使用的16种语言的新闻主题分类最大公开数据集。该数据集包含训练、验证和测试集,适用于所有16种语言。

支持的任务: 新闻主题分类,用于将新闻文章分类为商业、娱乐、健康、政治、宗教、体育和技术等主题。

语言: 数据集包含16种语言,包括Amharic、English、French、Hausa、Igbo、Lingala、Luganda、Oromo、Nigerian Pidgin、Rundi、Shona、Somali、Swahili、Tigrinya、Xhosa和Yoruba。

数据集结构:

  • 数据实例: 每个数据点包含标签、标题、文本、标题文本和URL。
  • 数据字段: 包括新闻主题ID、新闻标题、新闻正文、标题与正文的组合以及网站地址。
  • 数据分割: 所有语言均有训练、验证和测试三个分割,每种语言的分割大小不同。

数据集创建:

  • 来源数据: 数据来源于新闻领域,由新闻机构和报纸的记者和作家生产。
  • 注释: 注释由Masakhane组织的专家生成。

使用数据的考虑:

  • 已知限制: 数据集仅包含新闻文本,可能限制了开发系统在其他领域的应用。

附加信息:

  • 许可证: 数据集使用AFL-3.0许可证。
  • 引用信息: 提供BibTex格式的引用参考。

数据集详细信息

数据集大小: 1K<n<10K

多语言性: 多语言

数据集标签创建者: 专家生成

数据集语言创建者: 专家生成

数据集来源: 原始数据

数据集标签: 新闻主题、MasakhaNEWS、Masakhane

任务类别: 文本分类

任务ID: 主题分类

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作