Dz-Emotion

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/Houdna-khilouf/Dz-Emotion

下载链接

链接失效反馈

官方服务：

资源简介：

Dz-Emotion 是首个用于阿尔及利亚阿拉伯语方言（Darija）情感检测的大规模手动标注数据集。该数据集包含 6,000 条来自 YouTube、Facebook 和 Instagram 的社交媒体评论，标注基于 Ekman 的六种基本情感（愤怒、悲伤、恐惧、厌恶、快乐、惊讶）。数据集旨在支持低资源方言（尤其是阿尔及利亚阿拉伯语）的自然语言处理（NLP）研究。数据集以 CSV 格式提供，包含以下列：ID（唯一标识符）、Text（评论文本，阿尔及利亚方言）、Label（情感标签）和 Source（平台来源）。数据集统计显示，样本总数为 6,000 条，每类情感 1,000 条（平衡分布），数据来源比例为 YouTube 53%、Instagram 29%、Facebook 18%。数据集按 80% 训练集和 20% 验证集划分。基线结果显示，微调后的 Dz-EmoBERT 模型在该数据集上达到了 94.08% 的准确率。数据集的局限性包括：社交媒体数据可能存在噪声和偏见、仅涵盖六种情感（Ekman 模型）、且仅限于阿尔及利亚方言。

创建时间：

2026-04-16

原始信息汇总

Dz-Emotion 数据集概述

数据集基本信息

数据集名称：Dz-Emotion
语言：阿拉伯语 (Algerian Arabic dialect/Darija)
许可证：cc-by-4.0
任务类别：文本分类
任务ID：多类别分类
多语言性：单语
规模类别：1K<n<10K
标签：arabic, algerian-arabic, emotion-classification, nlp

数据集描述

Dz-Emotion 是首个用于阿尔及利亚阿拉伯方言情感检测的大规模人工标注数据集。该数据集包含6,000条社交媒体评论，收集自YouTube、Facebook和Instagram，并根据Ekman的六种基本情绪进行标注：愤怒、悲伤、恐惧、厌恶、快乐、惊讶。该数据集旨在支持针对低资源方言（尤其是阿尔及利亚阿拉伯语）的自然语言处理研究。

数据结构

数据集以CSV文件格式提供，包含以下列：

ID：每条评论的唯一标识符
Text：评论文本（阿尔及利亚方言）
Label：情感标签
Source：平台来源 (YouTube, Facebook, Instagram)

数据统计

总样本数：6,000
类别数：6种情绪
每类样本数：1,000 (平衡)

情绪分布

愤怒：1000
悲伤：1000
恐惧：1000
厌恶：1000
快乐：1000
惊讶：1000

数据来源分布

YouTube：53%
Instagram：29%
Facebook：18%

训练/测试划分

训练集：80% (4,800个样本)
验证集：20% (1,200个样本)

基线结果

该数据集用于微调多个模型，结果如下：

ARBERT：86.00%
MARBERT：91.67%
Dz-EmoBERT：94.08%

局限性

从社交媒体收集的数据可能包含噪声和偏见
仅关注六种情绪（Ekman模型）
仅限于阿尔及利亚方言

联系方式

如有问题或合作机会，请联系：h.khilouf@univ-eltarf.dz

引用

若使用本数据集，请引用： bibtex @inproceedings{khilouf2025dzemotion, title={Dz-Emotion: An Algerian Dialect Dataset for Text-Based Emotion Detection}, author={Khilouf, Houdna and Ziani, Amel and Malek, Nada Ahmed and Schwab, Didier and Yakoubi, Mohamed Amine}, booktitle={2025 International Conference on Recent Advances in Mathematics and Informatics (ICRAMI)}, pages={1--6}, year={2025}, address={Sousse, Tunisia}, doi={10.1109/ICRAMI64946.2025.11472633} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对低资源方言的情感分析研究常面临数据稀缺的挑战。Dz-Emotion数据集的构建过程系统而严谨，其核心语料来源于社交媒体平台，包括YouTube、Facebook和Instagram，共采集了六千条阿尔及利亚阿拉伯语方言评论。每条文本均依据埃克曼的六种基本情感理论进行人工标注，涵盖了愤怒、悲伤、恐惧、厌恶、快乐和惊讶等类别。为确保数据质量与代表性，构建过程注重来源的多样性，并实现了类别间的完全平衡，每个情感标签均对应一千个样本，为后续模型训练提供了稳定可靠的基础。

使用方法

该数据集以CSV格式提供，结构清晰，包含ID、文本、情感标签及数据来源四列，便于直接加载与处理。研究者可将其用于阿尔及利亚方言的情感分类模型训练、评估与比较研究。典型的使用流程是，按照数据集预设的八比二比例划分训练集与验证集，利用提供的文本与标签进行监督学习。鉴于其标注体系基于广泛认可的埃克曼情感模型，该数据集也适用于跨文化、跨语言的情感分析对比研究，或作为预训练模型在方言场景下微调的关键资源。使用时应留意其数据源于社交媒体可能引入的噪声，并在引用时遵循指定的学术规范。

背景与挑战

背景概述

在自然语言处理领域，针对低资源方言的情感分析研究长期面临数据匮乏的挑战。Dz-Emotion数据集由Houdna Khilouf等研究人员于2025年创建，是首个面向阿尔及利亚阿拉伯语方言（Darija）的大规模人工标注情感检测数据集。该数据集旨在解决方言情感计算中标注资源稀缺的核心问题，通过收集来自YouTube、Facebook和Instagram的6000条社交媒体评论，并依据Ekman的六种基本情感模型进行平衡标注，为阿拉伯语方言的NLP研究提供了重要的基准资源。

当前挑战

该数据集致力于应对阿尔及利亚方言文本情感分类的领域挑战，包括方言词汇的多样性与非标准拼写、社交媒体文本的噪声干扰以及跨平台语言风格的差异性。在构建过程中，研究人员需克服方言标注专家稀缺、情感标签主观性校准以及多源数据质量均衡等难题。此外，数据集仅涵盖六种基础情感类别，对于复杂混合情感的表征能力存在局限，且其社交媒体来源可能引入固有的文化与社会偏见。

常用场景

经典使用场景

在自然语言处理领域，针对低资源方言的情感分析研究长期面临数据稀缺的挑战。Dz-Emotion数据集作为首个大规模、人工标注的阿尔及利亚阿拉伯方言情感数据集，其最经典的使用场景在于为方言情感分类模型提供训练与评估基准。研究者通常利用该数据集微调预训练语言模型，如ARBERT、MARBERT等，以构建能够准确识别社交媒体文本中六种基本情感的方言专用系统，从而推动方言NLP技术的发展。

解决学术问题

该数据集有效解决了方言计算语言学中情感分析资源匮乏的核心学术问题。通过提供平衡的、跨平台收集的标注数据，它使得针对阿尔及利亚方言的细粒度情感识别成为可能，弥补了主流阿拉伯语资源与方言变体之间的鸿沟。其意义在于为低资源语言处理建立了可复现的实验框架，促进了方言情感计算模型的公平比较与性能提升，对多语言NLP的资源均衡发展具有重要影响。

实际应用

在实际应用层面，Dz-Emotion数据集支撑了面向阿尔及利亚地区社交媒体内容的情感监测与分析工具的开发。基于该数据集训练的模型，如Dz-EmoBERT，可应用于舆情分析、客户反馈自动分类、心理健康辅助筛查等场景。例如，企业或机构能够借此自动识别方言用户评论中的情绪倾向，从而更精准地理解本地社群态度，为决策提供数据驱动的洞察。

数据集最近研究