five

Kureeess/go_emotions

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Kureeess/go_emotions
下载链接
链接失效反馈
官方服务:
资源简介:
GoEmotions数据集包含58k个经过精心筛选的Reddit评论,标注了27种情感类别或中性。数据集提供原始数据和简化版本,简化版本包含预定义的数据划分。数据为英文,来源于Reddit评论。数据集由亚马逊Alexa、谷歌研究和斯坦福的研究人员创建,旨在用于多类多标签情感分类任务。数据集存在潜在偏见,如Reddit和用户基础偏见、注释者均为来自印度的英语母语者等。

The GoEmotions dataset contains 58k carefully curated Reddit comments labeled for 27 emotion categories or Neutral. The raw data is included as well as the smaller, simplified version of the dataset with predefined train/val/test splits. The data is in English and sourced from Reddit comments. The dataset was created by researchers at Amazon Alexa, Google Research, and Stanford, intended for multi-class, multi-label emotion classification. Potential biases in the data include inherent biases in Reddit and user base, and annotators were all native English speakers from India.
提供机构:
Kureeess
搜集汇总
数据集介绍
main_image_url
构建方式
GoEmotions数据集源自Reddit平台上用户发布的评论,通过自动化手段大规模采集而来。为确保数据质量,研究者对原始语料进行了精心筛选与规范化处理。随后,三名来自印度的英语母语标注者依据细粒度情感分类体系,对每条评论进行独立标注,涵盖27种基本情感类别或中性标签。原始数据保留了每条评论的丰富元信息,包括作者、所属子版块及时间戳等,并最终构建了包含约5.8万条样本的精细化情感语料库。
特点
该数据集的核心特点在于其开创性的细粒度情感分类体系,囊括从欣赏、愉悦到悲伤、恐惧等27种具体情感维度,同时包含中性类别,极大地超越了传统粗粒度情感分析数据集。此外,GoEmotions提供了两种配置版本:原始完整版保留了详尽的元数据和二值化情感标签,而简化版则预先划分了训练、验证与测试集,并用整数列表形式呈现标签,极大便利了研究者直接开展多标签或多类别分类任务。
使用方法
GoEmotions的标准化接口使得其能够便捷地通过Hugging Face Datasets库加载使用。研究者可依据需求选择'raw'或'simplified'两种配置,其中'simplified'版本已预设好训练、验证和测试集划分。在模型训练时,该数据集适用于多标签分类任务,需将标注的多个情感类别作为目标变量。典型应用场景包括构建情感感知型对话系统、分析社交媒体情绪动态以及检测有害言论等,研究者可基于此数据集微调预训练语言模型,并利用提供的基准测试集进行客观评估。
背景与挑战
背景概述
GoEmotions数据集由斯坦福大学、谷歌研究与亚马逊Alexa的研究人员于2020年共同创建,核心研究聚焦于自然语言处理中的细粒度情感识别。该数据集包含约5.8万条精心筛选的Reddit评论,标注了27种情感类别或中性状态,其开创性的多标签分类框架为情感计算领域提供了高度细化的标注体系。通过引入丰富的情感维度,GoEmotions推动了情感分析从粗粒度极性判断向精细化、多层次理解的范式转变,广泛应用于聊天机器人、有害内容检测及人机交互等任务,成为情感智能研究中的重要基准资源。
当前挑战
GoEmotions所解决的领域挑战在于传统情感分类模型难以捕捉人类情感表达的复杂性与多样性,尤其是多种情感共存于同一文本的多标签场景,以及细微情感如“羡慕”与“骄傲”的区分。在构建过程中,研究者面临数据稀疏性挑战,需从Reddit大规模嘈杂文本中筛选有效样本,并设计均匀分布的情感标签以减少类别失衡。此外,标注员均来自印度的英语母语者可能引入地域性偏差,同时敏感信息(如用户名)的匿名化处理与隐私保护亦构成伦理挑战,需平衡数据实用性与用户权益。
常用场景
经典使用场景
GoEmotions数据集作为情感计算与自然语言处理交叉领域的标志性资源,其经典使用场景集中于细粒度情感分类任务。该数据集涵盖了从基本情绪如喜悦、悲伤到更为复杂的社交情感如钦佩、释然在内的27种情感类别,并包含中立标签。研究者通常利用其多标签分类的特性,构建能够同时捕捉和区分文本中微妙情感交织的深度学习模型,如基于Transformer架构的BERT或RoBERTa模型。通过在该数据集上进行微调,模型能够学习到更加丰富和精细的情感语义表征,从而超越传统的正负二分法,揭示人类语言中情感表达的复杂性和多样性。
实际应用
在实际应用层面,GoEmotions数据集催生了众多落地方案。在社交媒体监测领域,企业利用基于该数据集训练的模型实时捕捉用户评论中的混合情绪,从而更准确地洞察公众舆论和产品反馈,实现精准的舆情危机预警。在人工智能辅助心理咨询场景中,该数据集辅助构建的情感感知模型能够从用户对话中识别出细微的负面情绪信号,如失望、悲伤或内疚,帮助心理支持系统提供更具共情力的回应。此外,在游戏娱乐产业中,基于此数据集开发的对话智能体能够根据玩家的情绪状态动态调整叙事走向和交互策略,显著提升了用户体验的个性化与沉浸感。
衍生相关工作
GoEmotions数据集自发布以来,衍生了一系列具有影响力的经典工作。在模型层面,研究者提出了基于对比学习和提示学习的多标签情感识别方法,如利用情感原型进行对比训练,有效提升了模型在情感标签稀疏场景下的鲁棒性。在理论层面,该数据集启发了对情感语义空间结构的深入探索,例如通过图神经网络建模情感标签之间的共现关系与层次关联。此外,跨语言情感迁移学习研究也大量以GoEmotions为基准语料,探索如何将细粒度情感知识从英语迁移至低资源语言。该数据集还促进了情感生成任务的发展,衍生出诸如情感可控文本生成、对话情感迁移等前沿课题,持续推动自然语言处理领域的情感计算边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作