five

NaijaSenti

收藏
arXiv2022-06-18 更新2024-06-21 收录
下载链接:
https://github.com/hausanlp/NaijaSenti
下载链接
链接失效反馈
官方服务:
资源简介:
NaijaSenti是首个针对尼日利亚最广泛使用的四种语言(豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语)的大型人工标注Twitter情感数据集。该数据集包含每种语言约30,000条标注推文,总计约120,000条,其中显著包含混合语言的推文。数据集的创建涉及文本收集、过滤、处理和标注方法,特别适用于这些资源较少的语言。NaijaSenti不仅用于情感分析研究,还支持其他下游NLP任务,如语言模型和机器翻译,旨在解决非洲语言在数字技术中的代表性不足问题。
提供机构:
LIAAD - INESC TEC, Faculty of Sciences-University of Porto, Portugal
创建时间:
2022-01-21
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
NaijaSenti是首个针对尼日利亚四种语言的大型人工标注Twitter情感数据集,包含约120,000条推文,覆盖豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语,并包含混合语言内容。它专为资源较少的语言设计,支持情感分析和其他NLP任务,旨在解决非洲语言在数字技术中的代表性不足问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作