SuperEmotion

Name: SuperEmotion
Creator: 巴塞罗那IESE商学院
Published: 2025-05-21 18:21:00
License: 暂无描述

arXiv2025-05-21 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/cirimus/super-emotions

下载链接

链接失效反馈

官方服务：

资源简介：

SuperEmotion数据集是全球最大的符合Shaver情感分类体系的数据集，用于自然语言处理中的情感识别。该数据集通过整合多个现有情感数据集并重新映射类别，涵盖了519,812个样本，标签包括快乐、悲伤、愤怒、恐惧、爱和惊讶等主要情感类别以及中性类别。数据集的来源包括MELD、GoEmotions、TwitterEmotion、ISEAR、SemEval和CrowdFlower等。该数据集通过文本规范化、去重、数据分割和元数据保留等预处理步骤确保一致性。数据集基于Shaver的情感分类体系，通过标签协调实现了不同来源数据集的整合。SuperEmotion数据集适用于情感计算、人机交互和情感分析等领域的研究，旨在解决现有数据集在类别、样本规模和特定领域方面的不足。

The SuperEmotion dataset is the world's largest dataset adhering to Shaver's emotion classification system for emotion recognition tasks in natural language processing. It integrates multiple existing emotion datasets and remaps their categories, containing a total of 519,812 samples. Its labels cover major emotion categories including happiness, sadness, anger, fear, love, surprise, as well as the neutral category. The dataset sources include MELD, GoEmotions, TwitterEmotion, ISEAR, SemEval, CrowdFlower, and other resources. Preprocessing steps such as text normalization, deduplication, data splitting, and metadata retention are implemented to ensure data consistency. The SuperEmotion dataset integrates cross-source datasets through label harmonization based on Shaver's emotion classification system. This dataset is suitable for research in fields such as affective computing, human-computer interaction, and sentiment analysis, aiming to address the shortcomings of existing datasets in terms of category coverage, sample size, and domain specificity.

提供机构：

巴塞罗那IESE商学院

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在情感计算领域，数据集的构建往往面临分类标准不统一的挑战。SuperEmotion数据集通过整合六个主流情感数据集（MELD、GoEmotions、TwitterEmotion、ISEAR、SemEval和CrowdFlower），采用Shaver心理学分类体系进行标签重构，构建过程包含文本标准化、去重处理、分层抽样等关键步骤。该工作将原始数据中135种细粒度情感标签映射为6种基础情绪（喜悦、悲伤、愤怒、恐惧、爱、惊讶）和中性类别，最终形成包含519,812样本的大规模语料库，其中特别保留了各数据源的元信息以支持领域适应性研究。

使用方法

研究者可通过Hugging Face平台直接加载该数据集，Python环境下使用datasets库调用load_dataset("cirimus/super-emotion")即可获取。鉴于数据集融合了不同标注标准和领域的数据，建议使用时分三种典型场景：跨领域情感分类任务可充分利用其多样性，心理学研究宜聚焦ISEAR的叙事文本，社交媒体分析则可侧重GoEmotions和TwitterEmotion子集。需注意数据存在ISEAR样本占比过高带来的偏差，建议通过分层抽样或加权损失函数进行处理。

背景与挑战

背景概述

SuperEmotion数据集由IESE商学院的Enric Junqué de Fortuny等人于2025年推出，旨在解决自然语言处理领域中情感分类数据集缺乏标准化和心理学基础的问题。该数据集整合了MELD、GoEmotions、TwitterEmotion、ISEAR、SemEval和CrowdFlower等多个现有数据集，共计519,812个样本，并基于Shaver的情感分类法（包括喜悦、悲伤、愤怒、恐惧、爱和惊讶六种基本情感及中性类别）进行了标签统一。SuperEmotion的构建填补了情感分类研究中数据规模不足、类别不一致的空白，为跨领域情感识别研究提供了更可靠的基础。

当前挑战

SuperEmotion数据集在构建过程中面临多重挑战。在领域问题方面，情感分类任务本身存在主观性强、语境依赖性高的特点，不同文化背景和语言习惯可能导致情感表达的差异，增加了模型泛化的难度。在数据集构建过程中，挑战主要包括：1) 标签异构性，需将不同来源数据集的标签映射到Shaver的统一分类体系；2) 数据偏差问题，如ISEAR数据集占比过高可能导致样本分布不均衡；3) 文本风格差异，整合的社交媒体文本（如推特）、剧本对话和问卷回答等形式各异，需统一预处理；4) 多标签标注的复杂性，同一文本可能包含多种情感，增加了标注和模型训练的难度。

常用场景

经典使用场景

在情感计算领域，SuperEmotion数据集因其基于Shaver心理学分类法的标准化标注体系而成为情感分类任务的金标准。该数据集整合了来自电视对话脚本、社交媒体评论、问卷调查等多源文本，覆盖了日常对话、网络社交、个人叙事等多样化场景，特别适合用于训练跨领域情感识别模型。研究者常利用其丰富的标签层次结构（喜悦、悲伤、愤怒等六类基础情绪）和51万条样本规模，验证模型在复杂语境下的泛化能力。

解决学术问题

该数据集有效解决了情感计算研究中三个核心问题：一是通过Shaver分类法统一了既往数据集中离散的情绪标签体系，消除了因标注标准不一致导致的模型偏差；二是整合MELD、GoEmotions等六类异构数据源，缓解了单一领域数据不足的困境；三是通过保留原始数据集的元信息，支持研究者分析不同文化背景下的情绪表达差异。这种标准化处理推动了情感分类模型从特定领域向通用场景的跨越。

实际应用

在实际应用中，基于SuperEmotion训练的模型已部署于智能客服情绪感知系统，通过实时分析用户文本中的愤怒或悲伤情绪触发服务升级机制。教育科技公司利用其多模态特性开发了在线学习情绪监测工具，识别学生讨论区文本中的困惑与喜悦信号。社交媒体平台则借助该数据集构建的内容审核系统，能更精准地检测仇恨言论中的愤怒情绪和安慰性评论中的共情表达。

数据集最近研究