UdS-LSV/yoruba_bbc_topics
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/UdS-LSV/yoruba_bbc_topics
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于约鲁巴语(Yorùbá)新闻标题主题分类的数据集,类似于AG-news数据集。数据集的新闻标题来源于BBC约鲁巴语新闻,包含新闻标题、主题标签、发布日期和BBC文章ID等信息。数据集分为训练集、验证集和测试集,分别包含1340、189和379个样本。主题标签包括非洲、娱乐、健康、尼日利亚、政治、体育和世界等类别。
提供机构:
UdS-LSV
原始信息汇总
数据集卡片:Yoruba BBC新闻主题分类数据集(YorubaBbcTopics)
数据集描述
数据集摘要
一个新闻标题主题分类数据集,类似于AG-news,用于Yorùbá语。新闻标题收集自BBC Yoruba。
支持的任务和排行榜
[更多信息待补充]
语言
Yorùbá(ISO 639-1: yo)
数据集结构
数据实例
一个实例包含一个新闻标题句子、相应的主题标签以及发布信息(日期和网站ID)。
数据字段
news_title: 新闻标题。label: 描述新闻标题主题的标签。可以是以下类别之一:africa, entertainment, health, nigeria, politics, sport 或 world。date: 发布日期(以Yorùbá语表示)。bbc_url_id: BBC文章的标识符。
数据分割
[更多信息待补充]
数据集创建
策划理由
[更多信息待补充]
源数据
初始数据收集和规范化
[更多信息待补充]
源语言生产者是谁?
[更多信息待补充]
注释
注释过程
[更多信息待补充]
注释者是谁?
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据集的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
[更多信息待补充]
引用信息
[更多信息待补充]
贡献
感谢@michael-aloys添加此数据集。



