emotone-ar-cicling2017/emotone_ar
收藏Hugging Face2024-08-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/emotone-ar-cicling2017/emotone_ar
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- found
language_creators:
- found
language:
- ar
license:
- unknown
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- text-classification
task_ids:
- sentiment-classification
pretty_name: Emotional Tone in Arabic
dataset_info:
features:
- name: tweet
dtype: string
- name: label
dtype:
class_label:
names:
'0': none
'1': anger
'2': joy
'3': sadness
'4': love
'5': sympathy
'6': surprise
'7': fear
splits:
- name: train
num_bytes: 1541738
num_examples: 10065
download_size: 862018
dataset_size: 1541738
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for Emotional Tone in Arabic
## Table of Contents
- [Dataset Card for Emotional Tone in Arabic](#dataset-card-for-emotional-tone-in-arabic)
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [|split|num examples|](#splitnum-examples)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Initial Data Collection and Normalization](#initial-data-collection-and-normalization)
- [Who are the source language producers?](#who-are-the-source-language-producers)
- [Annotations](#annotations)
- [Annotation process](#annotation-process)
- [Who are the annotators?](#who-are-the-annotators)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Repository:** [Repository](https://github.com/AmrMehasseb/Emotional-Tone)
- **Paper:** [Emotional Tone Detection in Arabic Tweets](https://www.researchgate.net/publication/328164296_Emotional_Tone_Detection_in_Arabic_Tweets_18th_International_Conference_CICLing_2017_Budapest_Hungary_April_17-23_2017_Revised_Selected_Papers_Part_II)
- **Point of Contact:** [Amr Al-Khatib](https://github.com/AmrMehasseb)
### Dataset Summary
Dataset of 10065 tweets in Arabic for Emotion detection in Arabic text
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
The dataset is based on Arabic.
## Dataset Structure
### Data Instances
example:
```
>>> {'label': 0, 'tweet': 'الاوليمبياد الجايه هكون لسه ف الكليه ..'}
```
### Data Fields
- "tweet": plain text tweet in Arabic
- "label": emotion class label
the dataset distribution and balance for each class looks like the following
|label||Label description | Count |
|---------|---------| ------- |
|0 |none | 1550 |
|1 |anger | 1444 |
|2 |joy | 1281 |
|3 |sadness | 1256 |
|4 |love | 1220 |
|5 |sympathy | 1062 |
|6 |surprise | 1045 |
|7 |fear | 1207 |
### Data Splits
The dataset is not split.
| | train |
|----------|--------:|
| no split | 10,065 |
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
[More Information Needed]
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[Needs More Information]
### Discussion of Biases
[Needs More Information]
### Other Known Limitations
[Needs More Information]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
```
@inbook{inbook,
author = {Al-Khatib, Amr and El-Beltagy, Samhaa},
year = {2018},
month = {01},
pages = {105-114},
title = {Emotional Tone Detection in Arabic Tweets: 18th International Conference, CICLing 2017, Budapest, Hungary, April 17–23, 2017, Revised Selected Papers, Part II},
isbn = {978-3-319-77115-1},
doi = {10.1007/978-3-319-77116-8_8}
}
```
### Contributions
Thanks to [@abdulelahsm](https://github.com/abdulelahsm) for adding this dataset.
annotations_creators:
- 公开获取(found)
language_creators:
- 公开获取(found)
language:
- 阿拉伯语(Arabic)
license:
- 未知
multilinguality:
- 单语言
size_categories:
- 10000<n<100000
source_datasets:
- 原始数据集
task_categories:
- 文本分类
task_ids:
- 情感分类
pretty_name: 阿拉伯语情感语调(Emotional Tone in Arabic)
dataset_info:
features:
- name: tweet
dtype: 字符串
- name: label
dtype:
class_label:
names:
'0': 无情感(none)
'1': 愤怒(anger)
'2': 喜悦(joy)
'3': 悲伤(sadness)
'4': 爱意(love)
'5': 同情(sympathy)
'6': 惊讶(surprise)
'7': 恐惧(fear)
splits:
- name: 训练集
num_bytes: 1541738字节
num_examples: 10065
download_size: 862018字节
dataset_size: 1541738字节
configs:
- config_name: 默认配置
data_files:
- split: 训练集
path: data/train-*
---
# 阿拉伯语情感语调数据集卡片(Dataset Card for Emotional Tone in Arabic)
## 目录
- [阿拉伯语情感语调数据集卡片](#dataset-card-for-emotional-tone-in-arabic)
- [目录](#table-of-contents)
- [数据集说明](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务与基准测试榜](#supported-tasks-and-leaderboards)
- [使用语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [|split|num examples|](#splitnum-examples)
- [数据集构建](#dataset-creation)
- [构建依据](#curation-rationale)
- [源数据](#source-data)
- [初始数据收集与标准化](#initial-data-collection-and-normalization)
- [源语言生产者是谁?](#who-are-the-source-language-producers)
- [标注](#annotations)
- [标注流程](#annotation-process)
- [标注人员是谁?](#who-are-the-annotators)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集策展人](#dataset-curators)
- [授权信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献](#contributions)
## 数据集说明
- **仓库地址**:[仓库](https://github.com/AmrMehasseb/Emotional-Tone)
- **相关论文**:[阿拉伯推文情感语调检测](https://www.researchgate.net/publication/328164296_Emotional_Tone_Detection_in_Arabic_Tweets_18th_International_Conference_CICLing_2017_Budapest_Hungary_April_17-23_2017_Revised_Selected_Papers_Part_II)
- **联系人**:[阿姆鲁·哈提卜(Amr Al-Khatib)](https://github.com/AmrMehasseb)
### 数据集概述
本数据集包含10065条阿拉伯语推文,用于阿拉伯文本情感检测任务。
### 支持任务与基准测试榜
[需补充更多信息]
### 使用语言
本数据集基于阿拉伯语。
## 数据集结构
### 数据实例
示例:
>>> {'label': 0, 'tweet': 'الاوليمبياد الجايه هكون لسه ف الكليه ..'}
### 数据字段
- "tweet":阿拉伯语纯文本推文
- "label":情感类别标签
本数据集各情感类别的分布与平衡情况如下:
|标签编号|类别|类别描述|样本数|
|---------|---------|---------|-------|
|0|无情感|无情感|1550|
|1|愤怒|愤怒|1444|
|2|喜悦|喜悦|1281|
|3|悲伤|悲伤|1256|
|4|爱意|爱意|1220|
|5|同情|同情|1062|
|6|惊讶|惊讶|1045|
|7|恐惧|恐惧|1207|
### 数据划分
本数据集未进行额外划分。
| | 训练集 |
|----------|--------:|
| 无额外划分 | 10065 |
## 数据集构建
### 构建依据
[需补充更多信息]
### 源数据
[需补充更多信息]
#### 初始数据收集与标准化
[需补充更多信息]
#### 源语言生产者是谁?
[需补充更多信息]
### 标注
[需补充更多信息]
#### 标注流程
[需补充更多信息]
#### 标注人员是谁?
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差讨论
[需补充更多信息]
### 其他已知局限性
[需补充更多信息]
## 附加信息
### 数据集策展人
[需补充更多信息]
### 授权信息
[需补充更多信息]
### 引用信息
@inbook{inbook,
author = {Al-Khatib, Amr and El-Beltagy, Samhaa},
year = {2018},
month = {01},
pages = {105-114},
title = {阿拉伯推文情感语调检测(Emotional Tone Detection in Arabic Tweets: 18th International Conference, CICLing 2017, Budapest, Hungary, April 17–23, 2017, Revised Selected Papers, Part II)},
isbn = {978-3-319-77115-1},
doi = {10.1007/978-3-319-77116-8_8}
}
### 贡献
感谢[@abdulelahsm](https://github.com/abdulelahsm)贡献本数据集。
提供机构:
emotone-ar-cicling2017
原始信息汇总
数据集卡片:阿拉伯语情感音调
数据集描述
数据集摘要
包含10065条阿拉伯语推文,用于阿拉伯语文本情感检测。
支持的任务和排行榜
[更多信息需补充]
语言
数据集基于阿拉伯语。
数据集结构
数据实例
示例:
{label: 0, tweet: الاوليمبياد الجايه هكون لسه ف الكليه ..}
数据字段
- "tweet": 阿拉伯语纯文本推文
- "label": 情感类别标签
各类别分布如下:
| 标签 | 标签描述 | 数量 |
|---|---|---|
| 0 | none | 1550 |
| 1 | anger | 1444 |
| 2 | joy | 1281 |
| 3 | sadness | 1256 |
| 4 | love | 1220 |
| 5 | sympathy | 1062 |
| 6 | surprise | 1045 |
| 7 | fear | 1207 |
数据分割
数据集未分割。
| 分割 | 样本数量 |
|---|---|
| train | 10,065 |
数据集创建
策划理由
[更多信息需补充]
源数据
[更多信息需补充]
初始数据收集和规范化
[更多信息需补充]
源语言生产者
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据集的考虑因素
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
[更多信息需补充]
引用信息
@inbook{inbook, author = {Al-Khatib, Amr and El-Beltagy, Samhaa}, year = {2018}, month = {01}, pages = {105-114}, title = {Emotional Tone Detection in Arabic Tweets: 18th International Conference, CICLing 2017, Budapest, Hungary, April 17–23, 2017, Revised Selected Papers, Part II}, isbn = {978-3-319-77115-1}, doi = {10.1007/978-3-319-77116-8_8} }
贡献
感谢@abdulelahsm添加此数据集。
搜集汇总
数据集介绍

构建方式
在阿拉伯语情感计算领域,Emotional Tone in Arabic数据集通过系统化采集与标注流程构建而成。该数据集源自社交媒体平台上的阿拉伯语推文,共计收录10,065条文本实例。每条推文均经过人工标注,被归类为八种情感类别之一,包括愤怒、喜悦、悲伤、爱、同情、惊讶、恐惧及无情感状态。数据构建过程注重语言真实性与语境多样性,旨在反映阿拉伯语用户在数字社交环境中的情感表达模式,为后续情感分析研究提供了高质量的标注语料基础。
使用方法
研究人员可利用该数据集开展阿拉伯语情感分类模型的训练与评估。典型工作流程包括数据加载、文本预处理、特征提取及分类器构建。鉴于数据未预设训练集与测试集划分,使用者需自行实施交叉验证或按比例分割,以确保模型泛化能力的可靠验证。该数据集适用于监督学习范式,可支撑传统机器学习方法或深度学习架构的探索。在具体应用中,需注意处理阿拉伯语特有的形态学复杂性和编码问题,并结合领域知识进行适当的文本规范化,以优化模型性能。
背景与挑战
背景概述
情感计算作为自然语言处理领域的重要分支,旨在通过计算模型识别和理解文本中的情感状态。阿拉伯语作为全球使用广泛的语言之一,其数字文本资源的情感分析研究相对滞后。Emotional Tone in Arabic数据集由Amr Al-Khatib与Samhaa El-Beltagy等学者于2017年构建,并在CICLing国际会议上发布,专注于阿拉伯语推文中的多类别情感识别。该数据集包含超过一万条标注样本,涵盖愤怒、喜悦、悲伤、爱、同情、惊讶和恐惧等八种情感类别,为阿拉伯语情感分析模型的训练与评估提供了关键资源,推动了跨语言情感计算研究的发展。
当前挑战
该数据集致力于解决阿拉伯语文本中细粒度情感分类的挑战,包括识别复杂文化语境下的情感表达差异,以及处理阿拉伯语方言与标准语混合带来的语义歧义。在构建过程中,面临数据收集与标注的多重困难:阿拉伯语社交媒体文本常包含非正式拼写、缩写和地域性表达,增加了情感标注的一致性难度;同时,情感类别间的边界模糊,如‘同情’与‘悲伤’的细微区别,要求标注者具备深厚的语言与文化洞察力。此外,数据集的规模相对有限,且类别分布存在轻微不均衡,可能影响模型在少数情感类别上的泛化能力。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,情感分析作为一项核心任务,长期面临资源稀缺的挑战。Emotional Tone in Arabic 数据集以其超过一万条标注精细的阿拉伯语推文,为研究者提供了宝贵的实验材料。该数据集最经典的使用场景在于训练和评估多类别情感分类模型,特别是针对愤怒、喜悦、悲伤、爱、同情、惊讶和恐惧这七种具体情绪以及中性状态的识别。学者们利用它来构建和优化深度学习架构,如循环神经网络和Transformer模型,以理解阿拉伯语社交媒体文本中复杂而微妙的情感表达。
解决学术问题
该数据集的构建,直接回应了阿拉伯语情感计算研究中数据匮乏的关键瓶颈。它系统性地解决了如何对阿拉伯语短文本进行细粒度情绪标注的学术问题,超越了传统二元情感(正面/负面)分析的局限。其意义在于为建立跨语言情感分析基准提供了重要支撑,促进了计算语言学理论与阿拉伯语语言特性的结合研究。该资源推动了针对阿拉伯语形态复杂性和方言变体的情感模型鲁棒性探索,对缩小数字语言鸿沟产生了深远影响。
实际应用
超越纯学术探索,该数据集在多个实际应用场景中展现出巨大价值。在社会舆情监测方面,它可用于分析阿拉伯语地区社交媒体上的公众情绪波动,为政策制定和市场研究提供洞察。在心理健康领域,基于此数据集开发的工具能够辅助识别在线文本中潜在的心理困扰信号。此外,在客户服务与产品反馈分析中,企业能借此自动化理解阿拉伯语用户评论中的具体情绪,从而提升服务质量和用户体验。这些应用切实地将情感计算技术赋能于社会与商业实践。
数据集最近研究
最新研究方向
在阿拉伯语情感分析领域,Emotional Tone in Arabic数据集作为重要的情感标注资源,正推动着多情感细粒度分类的前沿探索。随着社交媒体分析需求的增长,该数据集被广泛应用于跨文化情感计算研究,助力模型捕捉阿拉伯语特有的语言表达和情感细微差异。当前热点聚焦于结合预训练语言模型如AraBERT进行迁移学习,以提升对愤怒、喜悦、悲伤等八类情感的识别精度,同时关注数据偏差与社会文化背景的整合,为中东地区的舆情监控和心理健康应用提供技术支撑。
以上内容由遇见数据集搜集并总结生成



