NaijaSenti
收藏github2023-06-22 更新2024-05-31 收录
下载链接:
https://github.com/shmuhammadd/NaijaSenti
下载链接
链接失效反馈官方服务:
资源简介:
NaijaSenti是一个为尼日利亚四种主要语言(Hausa, Igbo, Nigerian-Pidgin, and Yorùbá)提供的大规模人工标注的Twitter情感数据集,每种语言约有30,000个标注推文(除Nigerian-Pidgin外),包括大量混合语言推文。该数据集旨在支持低资源语言的情感分析研究,提供了文本收集、过滤、处理和标注方法,以及预训练模型、情感词典和代码。
NaijaSenti is a large-scale, manually annotated Twitter sentiment dataset for four major Nigerian languages (Hausa, Igbo, Nigerian-Pidgin, and Yorùbá), with approximately 30,000 annotated tweets per language (except for Nigerian-Pidgin), including a significant number of mixed-language tweets. The dataset is designed to support sentiment analysis research in low-resource languages, providing methods for text collection, filtering, processing, and annotation, as well as pre-trained models, sentiment lexicons, and code.
创建时间:
2021-09-27
原始信息汇总
NaijaSenti数据集概述
数据集简介
NaijaSenti是一个开源的情感和情绪语料库,针对尼日利亚四种主要语言:豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语。此项目得到了lacuna-fund的支持。
数据集内容
- 手动标注的Twitter情感数据集:包含约30,000条每种语言的标注推文(尼日利亚皮钦语除外)。
- 手动标注的情感词典。
- 半自动翻译的情感词典。
- 半自动翻译的情感词典。
- 大规模未标注的Twitter情感语料库。
- 豪萨语、伊博语、皮钦语和约鲁巴语的停用词。
模型与资源
- 模型:模型可通过Huggingface模型库获取。
- 情感词典和代码:为促进对代表性不足语言的情感分析研究,这些资源已公开。
研究成果
联系方式
- 电子邮件:shamsuddeen2004@gmail.com
- GitHub问题反馈:打开问题
许可证
本工作根据Creative Commons Attribution 4.0 International License授权。
搜集汇总
数据集介绍

构建方式
NaijaSenti数据集的构建过程涉及从尼日利亚四种主要语言(豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语)的Twitter平台上收集大量推文。通过精心设计的文本收集、过滤、处理和标注方法,研究团队成功创建了这一大规模情感分析数据集。每条推文均经过人工标注,确保了数据的高质量和准确性。此外,数据集中还包含了一定比例的代码混合推文,进一步丰富了数据的多样性。
特点
NaijaSenti数据集的特点在于其覆盖了尼日利亚四种主要语言,每种语言包含约30,000条标注推文(尼日利亚皮钦语除外)。数据集中不仅包含纯语言推文,还涵盖了代码混合推文,反映了尼日利亚多语言社会的语言使用现状。此外,数据集还提供了情感词典和情感分析模型,为研究低资源语言的情感分析提供了宝贵的资源。
使用方法
NaijaSenti数据集的使用方法包括下载手动标注的Twitter情感数据集、情感词典以及大规模未标注的Twitter语料库。研究人员可以通过Hugging Face平台访问预训练的情感分析模型,并利用这些资源进行多语言情感分析研究。数据集的使用需遵循Creative Commons Attribution 4.0 International License,并在相关研究中引用提供的文献。
背景与挑战
背景概述
NaijaSenti数据集由HausaNLP团队于2022年创建,旨在填补尼日利亚主要语言情感分析研究的空白。该数据集涵盖了尼日利亚四种主要语言——豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语,包含了约30,000条人工标注的推文数据。该项目的核心研究问题在于如何为低资源语言构建高质量的情感分析数据集,并探索多语言情感分析模型的性能。NaijaSenti的发布为非洲语言的自然语言处理研究提供了重要的数据支持,推动了多语言情感分析领域的发展。
当前挑战
NaijaSenti数据集在构建过程中面临多重挑战。首先,尼日利亚语言的多样性和复杂性使得数据收集和标注变得尤为困难,尤其是处理混合语言(code-mixed)的推文。其次,由于这些语言属于低资源语言,缺乏现成的工具和资源,数据预处理和模型训练需要依赖创新的方法。此外,确保数据标注的一致性和准确性也是一个重要挑战,尤其是在多语言环境下。这些挑战不仅影响了数据集的构建效率,也对后续模型性能的优化提出了更高的要求。
常用场景
经典使用场景
NaijaSenti数据集在自然语言处理领域中的经典使用场景主要集中在情感分析任务上。该数据集包含了尼日利亚四种主要语言(豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语)的推特文本,适用于多语言情感分析模型的训练与评估。研究人员可以通过该数据集探索低资源语言的情感分析性能,尤其是在处理代码混合文本时的表现。
衍生相关工作
NaijaSenti数据集衍生了许多相关研究工作,尤其是在多语言情感分析领域。例如,基于该数据集的AfriSenti-SemEval竞赛进一步推动了非洲语言情感分析的研究。此外,研究人员利用该数据集开发了多种预训练模型和迁移学习策略,如AfriBERTa模型,这些工作为低资源语言的自然语言处理提供了新的技术路径。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是情感分析方向,NaijaSenti数据集为尼日利亚四种主要语言(豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语)提供了大规模的人工标注推特情感数据。这一数据集不仅填补了低资源语言在情感分析研究中的空白,还为多语言情感分析模型的发展提供了重要支持。近期研究聚焦于如何通过语言特定模型和语言自适应微调策略提升模型性能,特别是在处理代码混合推文时的表现。此外,该数据集还被用于SemEval竞赛中的AfriSenti任务,进一步推动了非洲语言情感分析的研究进展。这一研究方向的突破不仅有助于提升多语言情感分析的准确性,还为全球语言多样性的保护和技术发展提供了新的视角。
以上内容由遇见数据集搜集并总结生成



