HausaNLP/NaijaSenti-Twitter
收藏NaijaSenti 数据集概述
数据集描述
NaijaSenti 是首个大规模人工标注的 Twitter 情感数据集,涵盖尼日利亚四种最广泛使用的语言:豪萨语(Hausa)、伊博语(Igbo)、尼日利亚皮钦语(Nigerian-Pidgin)和约鲁巴语(Yorùbá),每种语言包含约 30,000 条标注推文,其中包括大量混合语言推文。
支持的任务和排行榜
NaijaSenti 可用于尼日利亚语言的广泛情感分析任务,如情感分类、情感强度分析和情感检测。该数据集适用于训练和评估与非洲语言情感分析相关的各种 NLP 任务的机器学习模型。它曾是 SemEval 2023 Task 12: Sentiment Analysis for African Languages 使用的数据集之一。
语言
NaijaSenti 涵盖以下四种尼日利亚主要语言:
- 豪萨语(hau)
- 伊博语(ibo)
- 尼日利亚皮钦语(pcm)
- 约鲁巴语(yor)
数据集结构
数据实例
每个实例包含一条推文和一个标签。具体格式如下:
json { "tweet": "string", "label": "string" }
数据字段
数据字段包括:
tweet:字符串特征。label:分类标签,可能的值包括 positive、negative 和 neutral。
数据分割
NaijaSenti 数据集分为训练集、验证集和测试集。以下是版本 1.0.0 的数据统计:
| hau | ibo | pcm | yor | |
|---|---|---|---|---|
| train | 14,172 | 10,192 | 5,121 | 8,522 |
| dev | 2,677 | 1,841 | 1,281 | 2,090 |
| test | 5,303 | 3,682 | 4,154 | 4,515 |
| total | 22,152 | 15,715 | 10,556 | 15,127 |
如何使用
python from datasets import load_dataset
加载特定语言(例如豪萨语)的数据集,包括训练集、验证集和测试集
ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau")
仅加载训练集
ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau", split="train")
仅加载测试集
ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau", split="test")
仅加载验证集
ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau", split="validation")
数据集创建
策划理由
NaijaSenti 版本 1.0.0 旨在用于尼日利亚本土和克里奥尔语言(豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语)的情感分析及相关任务。
源数据
数据来源于 Twitter。
个人和敏感信息
推文中的所有 @mentions 已被替换为 @user,所有 URL 已被移除,以保护用户隐私。
使用数据的注意事项
数据集的社会影响
NaijaSenti 数据集有望改善尼日利亚语言的情感分析,这对于理解和分析尼日利亚人民的多样性观点至关重要。该数据集使研究人员和开发者能够创建针对尼日利亚语言的情感分析模型,从而深入了解尼日利亚人民的社会、文化和政治观点。此外,该数据集有助于解决尼日利亚语言在自然语言处理中的代表性不足问题,为更公平和包容的 AI 技术铺平道路。
附加信息
数据集策展人
- Shamsuddeen Hassan Muhammad
- Idris Abdulmumin
- Ibrahim Said Ahmad
- Bello Shehu Bello
许可信息
NaijaSenti 数据集遵循 Creative Commons Attribution BY-NC-SA 4.0 International License。
引用信息
bibtex @inproceedings{muhammad-etal-2022-naijasenti, title = "{N}aija{S}enti: A {N}igerian {T}witter Sentiment Corpus for Multilingual Sentiment Analysis", author = "Muhammad, Shamsuddeen Hassan and Adelani, David Ifeoluwa and Ruder, Sebastian and Ahmad, Ibrahim Sa{}id and Abdulmumin, Idris and Bello, Bello Shehu and Choudhury, Monojit and Emezue, Chris Chinenye and Abdullahi, Saheed Salahudeen and Aremu, Anuoluwapo and Jorge, Al{\i}pio and Brazdil, Pavel", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.63", pages = "590--602", }



