HausaNLP/NaijaSenti-Twitter

Name: HausaNLP/NaijaSenti-Twitter
Creator: HausaNLP
Published: 2023-06-16 16:42:04
License: 暂无描述

Hugging Face2023-06-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HausaNLP/NaijaSenti-Twitter

下载链接

链接失效反馈

官方服务：

资源简介：

NaijaSenti是第一个大规模人工标注的尼日利亚四种最广泛使用的语言（豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语）的Twitter情感数据集，每种语言包含约30,000条标注的推文，其中包括大量混合语言的推文。该数据集可用于多种情感分析任务，如情感分类、情感强度分析和情感检测。数据集结构包括训练集、验证集和测试集，每条推文都有情感标签（正面、负面或中性）。数据集的创建目的是为了支持尼日利亚本土语言的情感分析任务，推文中的个人信息已被匿名化处理。该数据集有潜力提高尼日利亚语言的情感分析能力，促进更公平和包容的AI技术发展。

提供机构：

HausaNLP

原始信息汇总

NaijaSenti 数据集概述

数据集描述

NaijaSenti 是首个大规模人工标注的 Twitter 情感数据集，涵盖尼日利亚四种最广泛使用的语言：豪萨语（Hausa）、伊博语（Igbo）、尼日利亚皮钦语（Nigerian-Pidgin）和约鲁巴语（Yorùbá），每种语言包含约 30,000 条标注推文，其中包括大量混合语言推文。

支持的任务和排行榜

NaijaSenti 可用于尼日利亚语言的广泛情感分析任务，如情感分类、情感强度分析和情感检测。该数据集适用于训练和评估与非洲语言情感分析相关的各种 NLP 任务的机器学习模型。它曾是 SemEval 2023 Task 12: Sentiment Analysis for African Languages 使用的数据集之一。

语言

NaijaSenti 涵盖以下四种尼日利亚主要语言：

豪萨语（hau）
伊博语（ibo）
尼日利亚皮钦语（pcm）
约鲁巴语（yor）

数据集结构

数据实例

每个实例包含一条推文和一个标签。具体格式如下：

json { "tweet": "string", "label": "string" }

数据字段

数据字段包括：

tweet：字符串特征。
label：分类标签，可能的值包括 positive、negative 和 neutral。

数据分割

NaijaSenti 数据集分为训练集、验证集和测试集。以下是版本 1.0.0 的数据统计：

	hau	ibo	pcm	yor
train	14,172	10,192	5,121	8,522
dev	2,677	1,841	1,281	2,090
test	5,303	3,682	4,154	4,515
total	22,152	15,715	10,556	15,127

如何使用

python from datasets import load_dataset

加载特定语言（例如豪萨语）的数据集，包括训练集、验证集和测试集

ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau")

仅加载训练集

ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau", split="train")

仅加载测试集

ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau", split="test")

仅加载验证集

ds = load_dataset("HausaNLP/NaijaSenti-Twitter", "hau", split="validation")

数据集创建

策划理由

NaijaSenti 版本 1.0.0 旨在用于尼日利亚本土和克里奥尔语言（豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语）的情感分析及相关任务。

源数据

数据来源于 Twitter。

个人和敏感信息

推文中的所有 @mentions 已被替换为 @user，所有 URL 已被移除，以保护用户隐私。

使用数据的注意事项

数据集的社会影响

NaijaSenti 数据集有望改善尼日利亚语言的情感分析，这对于理解和分析尼日利亚人民的多样性观点至关重要。该数据集使研究人员和开发者能够创建针对尼日利亚语言的情感分析模型，从而深入了解尼日利亚人民的社会、文化和政治观点。此外，该数据集有助于解决尼日利亚语言在自然语言处理中的代表性不足问题，为更公平和包容的 AI 技术铺平道路。

附加信息

数据集策展人

Shamsuddeen Hassan Muhammad
Idris Abdulmumin
Ibrahim Said Ahmad
Bello Shehu Bello

许可信息

NaijaSenti 数据集遵循 Creative Commons Attribution BY-NC-SA 4.0 International License。

引用信息

bibtex @inproceedings{muhammad-etal-2022-naijasenti, title = "{N}aija{S}enti: A {N}igerian {T}witter Sentiment Corpus for Multilingual Sentiment Analysis", author = "Muhammad, Shamsuddeen Hassan and Adelani, David Ifeoluwa and Ruder, Sebastian and Ahmad, Ibrahim Sa{}id and Abdulmumin, Idris and Bello, Bello Shehu and Choudhury, Monojit and Emezue, Chris Chinenye and Abdullahi, Saheed Salahudeen and Aremu, Anuoluwapo and Jorge, Al{\i}pio and Brazdil, Pavel", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.63", pages = "590--602", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集