Emo Pillars
收藏arXiv2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/alex-shvets/EmoPillars
下载链接
链接失效反馈官方服务:
资源简介:
Emo Pillars数据集由Pompeu Fabra University和Barcelona Supercomputing Center创建,是一个包含28种情感类别的情感分类数据集。该数据集通过利用大型语言模型Mistral-7b生成上下文丰富和上下文匮乏的句子,以支持细粒度的情感分类。数据集分为上下文丰富和上下文匮乏两部分,共计100K和300K条示例。该数据集用于微调预训练的编码器模型,以提高其在不同任务上的表现。
The Emo Pillars dataset, created by Pompeu Fabra University and Barcelona Supercomputing Center, is an emotion classification dataset encompassing 28 distinct emotion categories. To support fine-grained emotion classification, this dataset generates sentences with both context-rich and context-scarce content using the large language model Mistral-7b. It is divided into two subsets corresponding to context-rich and context-scarce scenarios, with 100,000 and 300,000 samples respectively. This dataset is utilized for fine-tuning pre-trained encoder models to improve their performance across various tasks.
提供机构:
Pompeu Fabra University, Barcelona, Spain; Barcelona Supercomputing Center, Spain
创建时间:
2025-04-24
原始信息汇总
EmoPillars 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本分类
- 语言: 英语 (en)
- 数据集名称: EmoPillars
- 数据规模: 100K < n < 1M
数据集描述
- 内容: 包含28个类别的细粒度无上下文和上下文情感分类的合成数据。
- 生成方法: 使用多步流程基于Mistral模型生成。
- 用途: 用于训练多标签分类器,识别28种情感类别的话语,可选择在给定情境(上下文)中识别。
相关资源
- 分类器集合: https://huggingface.co/collections/alex-shvets/emopillars-67ec9694541e0bc69d62861f
- GitHub仓库: https://github.com/alex-shvets/emopillars
- 论文: https://arxiv.org/abs/2504.16856
引用信息
bibtex @misc{shvets2025emopillarsknowledgedistillation, title={Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification}, author={Alexander Shvets}, year={2025}, eprint={2504.16856}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.16856} }
搜集汇总
数据集介绍

构建方式
在情感计算领域,数据稀缺和标注一致性是长期存在的挑战。Emo Pillars数据集通过创新的LLM合成管道构建,采用Mistral-7B模型从11.3万条影视书籍摘要中提取角色和情节,生成角色中心化的情感表达。管道包含五个关键步骤:基于叙事文本的多样化指令设计、多情感类别批量生成、软标签分配、去情感化上下文构建以及语境重要性增强的语句改写,最终形成包含10万条带上下文和30万条无上下文样本的多标签数据集。
特点
该数据集突破传统情感数据集的局限性,具有三大核心特征:语义多样性方面,通过角色视角迭代和批量生成策略,使相同情感类别的语句余弦相似度均值低至0.12(σ=0.1);细粒度标注体系涵盖28类情感,采用软标签机制缓解主观性问题,每样本平均附带3.17个情感标签(σ=0.97);上下文关联性通过叙事锚定和改写策略强化,改写后语句与原始版本的语义相似度保持0.78(σ=0.15)同时显著降低情感显性度。
使用方法
数据集支持双模态应用场景:无上下文模式下可直接用于BERT类编码器的细粒度情感检测预训练,在GoEmotions任务中使RoBERTa达到0.55宏F1值;带上下文模式需将输入构建为[CLS]上下文[SEP]语句[SEP]格式,通过跨模态注意力机制实现情境感知分类,在EmoContext任务中使模型F1值提升至0.82。领域适配时建议采用分层学习率策略,对预训练层进行微调以获得跨域迁移能力。
背景与挑战
背景概述
Emo Pillars是由Alexander Shvets及其团队于2025年提出的一个专注于细粒度情感分类的数据集。该数据集由西班牙庞培法布拉大学和巴塞罗那超级计算中心联合开发,旨在解决现有情感分析数据集中缺乏上下文信息以及情感类别有限的问题。通过利用大型语言模型(如Mistral-7b)生成多样化的训练样本,Emo Pillars提供了包含100K上下文相关和300K无上下文的样本,覆盖28种情感类别。该数据集在情感分类、上下文感知任务等领域表现出色,并在多个基准测试中达到了最先进的性能。
当前挑战
Emo Pillars面临的挑战主要包括两个方面:1) 领域问题的挑战:情感分类任务本身具有高度主观性,尤其是在缺乏上下文的情况下,模型的分类结果容易受到标注者先验知识的影响,导致不一致性。此外,细粒度情感分类需要模型能够区分相似情感(如悲伤和失望),这对模型的语义理解能力提出了更高要求。2) 构建过程中的挑战:数据生成过程中,模型容易产生重复或语义相似的样本,尤其是在中性情感类别中。此外,确保生成样本的多样性和上下文相关性需要复杂的提示设计和多次推理,这导致了高昂的计算成本(450 GPU小时)。
常用场景
经典使用场景
Emo Pillars数据集在情感计算领域具有广泛的应用价值,尤其在细粒度情感分类任务中表现卓越。该数据集通过合成大量带有上下文和非上下文的情感标注文本,为研究者提供了丰富的训练样本。其经典使用场景包括基于BERT等编码器模型的微调,以支持上下文感知和非上下文的情感分类任务。例如,在社交媒体评论、对话系统和用户反馈分析中,Emo Pillars能够有效识别和分类复杂的情感表达。
实际应用
在实际应用中,Emo Pillars数据集被广泛用于提升情感识别系统的性能。例如,在音乐评论分析中,该数据集帮助模型准确识别用户对表演的复杂情感反应,如兴奋、喜悦或失望。此外,在客户服务对话系统中,Emo Pillars支持的上下文感知模型能够更精准地理解用户情绪,从而提供更个性化的响应。这些应用显著提升了用户体验和系统交互的自然性。
衍生相关工作
Emo Pillars数据集衍生了一系列经典研究工作,包括在GoEmotions、ISEAR和IEMOCAP等基准任务上的性能优化。例如,基于该数据集微调的RoBERTa模型在GoEmotions任务中达到了SOTA性能。此外,Emo Pillars还启发了多模态情感分析的研究,如结合文本和音频信号的CORECT模型,进一步推动了情感计算领域的发展。
以上内容由遇见数据集搜集并总结生成



