five

EmoGRACE

收藏
arXiv2025-03-19 更新2025-03-21 收录
下载链接:
https://github.com/Christina1281995/thesis_abea/tree/main
下载链接
链接失效反馈
官方服务:
资源简介:
EmoGRACE数据集是由萨尔茨堡大学地理信息系创建的,包含2621条英文推文,旨在为基于方面的情感分析提供训练数据。数据集的构建基于Shaver等人的层次情感理论,并采用了群体标注和多数投票策略来确保标签的一致性。数据集标注包含了愤怒、悲伤、快乐、恐惧和无情感五个方面的情感标签。该数据集的创建填补了社交媒体方面情感分析领域的空白,并为模型训练和微调提供了有价值的基础数据。

The EmoGRACE dataset was created by the Department of Geographic Information at the University of Salzburg, containing 2,621 English tweets, and is designed to provide training data for aspect-based sentiment analysis. The construction of the dataset is based on the hierarchical emotion theory proposed by Shaver et al., and a group annotation and majority voting strategy was adopted to ensure label consistency. The dataset's annotation covers five sentiment labels: anger, sadness, joy, fear, and neutral. The creation of the EmoGRACE dataset fills the gap in the field of social media aspect-based sentiment analysis, and provides valuable foundational data for model training and fine-tuning.
提供机构:
萨尔茨堡大学地理信息系
创建时间:
2025-03-19
搜集汇总
数据集介绍
main_image_url
构建方式
EmoGRACE数据集的构建过程基于社交媒体的Twitter数据,通过Java爬虫从Twitter的v1.1 API中收集了包含文本、时间戳和地理位置信息的推文。数据集由75%的随机推文和25%与灾难相关的推文组成,确保了数据的多样性和领域特异性。标注过程由七名来自数据科学和地理信息学领域的人工标注者完成,每篇推文由三名标注者独立标注,最终通过多数投票确定标签。标注过程中采用了Shaver等人的层次情感理论,并引入了None类以处理无情感文本。
特点
EmoGRACE数据集包含2,621条英文推文,涵盖了愤怒、悲伤、快乐、恐惧四种基本情感类别以及一个None类。数据集的特点在于其细粒度的情感标注,尤其是针对推文中的具体方面(aspect)进行情感分类。与传统的基于情感极性的分析不同,EmoGRACE专注于情感类别的识别,增加了任务的复杂性。此外,数据集中包含了丰富的地理和时间信息,适用于时空维度的情感分析研究。
使用方法
EmoGRACE数据集主要用于基于方面的情感分析(ABEA)任务,特别是方面术语提取(ATE)和方面情感分类(AEC)。研究人员可以通过该数据集微调BERT等预训练模型,以提升模型在社交媒体数据上的情感分析性能。数据集的使用方法包括将数据分为训练集、验证集和测试集,并通过超参数优化(HPO)来调整模型性能。此外,该数据集还可用于灾难管理、公共健康等领域的实时情感监测和分析。
背景与挑战
背景概述
EmoGRACE数据集由萨尔茨堡大学地理信息学系的Christina Zorenböhmer、Sebastian Schmidt和Bernd Resch等研究人员于2025年创建,旨在解决社交媒体数据中的基于方面的情感分析(ABEA)问题。该数据集包含2,621条英文推文,标注了愤怒、悲伤、快乐、恐惧等情感类别,并采用了Shaver等人的层次情感理论作为标注基础。EmoGRACE的推出填补了ABEA领域的数据集空白,尤其是在社交媒体数据分析中的应用,为情感分析模型的训练和评估提供了重要资源。该数据集不仅推动了ABEA研究的发展,还为灾难管理、公共情绪监测等领域的实时分析提供了新的可能性。
当前挑战
EmoGRACE数据集面临的主要挑战包括情感分类的复杂性和数据集规模限制。首先,情感分类相较于传统的情感极性分析更为复杂,情感类别之间的界限模糊,尤其是在处理讽刺、假设性陈述等复杂语言现象时,标注一致性难以保证。其次,数据集规模较小,仅有2,621条推文,导致模型在训练过程中容易出现过拟合,难以泛化到新数据。此外,构建过程中还面临标注主观性的挑战,尽管采用了群体标注和多数投票策略,但情感表达的多样性和推文语境的复杂性仍对标注质量提出了较高要求。这些挑战限制了模型在ABEA任务中的表现,尤其是在联合提取方面术语和情感分类任务时,性能提升空间有限。
常用场景
经典使用场景
EmoGRACE数据集在社交媒体情感分析领域具有广泛的应用,尤其是在细粒度的情感分类任务中。该数据集通过对Twitter推文进行标注,提供了基于方面的情感分析(ABEA)所需的训练数据,涵盖了愤怒、悲伤、幸福、恐惧等情感类别。其经典使用场景包括社交媒体监控、舆情分析以及灾难管理等,特别是在需要实时捕捉公众情绪变化的场景中,EmoGRACE能够帮助研究者深入理解公众对特定事件或话题的情感反应。
实际应用
在实际应用中,EmoGRACE数据集被广泛用于社交媒体监控和舆情分析。例如,在灾难管理中,该数据集可以帮助分析公众在灾难发生时的情感反应,从而为应急响应提供决策支持。此外,EmoGRACE还可用于品牌管理,帮助企业了解消费者对其产品或服务的情感态度。通过结合地理空间数据,该数据集还能够支持基于位置的情感分析,为城市规划、公共政策制定等领域提供数据支持。
衍生相关工作
EmoGRACE数据集的发布推动了基于方面的情感分析(ABEA)领域的研究进展。许多后续工作基于该数据集进行了模型优化和扩展,例如通过引入更复杂的神经网络架构或结合多模态数据(如文本与图像)来提升情感分类的准确性。此外,EmoGRACE还启发了更多针对社交媒体数据的ABEA研究,特别是在跨语言和跨文化的情感分析任务中,该数据集为相关研究提供了重要的基准和参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作