mrm8488/goemotions

Name: mrm8488/goemotions
Creator: mrm8488
Published: 2021-12-28 17:49:54
License: 暂无描述

Hugging Face2021-12-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mrm8488/goemotions

下载链接

链接失效反馈

官方服务：

资源简介：

GoEmotions数据集包含58,009条从Reddit提取的评论，标注了27种情感类别或中性情感。情感类别包括钦佩、娱乐、愤怒、烦恼、赞同、关心、困惑、好奇、欲望、失望、不赞同、厌恶、尴尬、兴奋、恐惧、感激、悲伤、快乐、爱、紧张、乐观、自豪、领悟、宽慰、悔恨、悲伤和惊讶。数据集分为训练集、测试集和验证集，分别包含43,410、5,427和5,426条数据。数据集还提供了基于评分者一致性的过滤版本，并包含了详细的元数据信息。

The GoEmotions dataset contains 58,009 comments extracted from Reddit, annotated with 27 emotion categories or the neutral sentiment. The emotion categories include admiration, amusement, anger, annoyance, approval, caring, confusion, curiosity, desire, disappointment, disapproval, disgust, embarrassment, excitement, fear, gratitude, sadness, joy, love, nervousness, optimism, pride, realization, relief, remorse, sadness, surprise. The dataset is split into training, test, and validation sets, which contain 43,410, 5,427 and 5,426 samples respectively. It also provides a filtered version based on inter-annotator agreement, and includes detailed metadata information.

提供机构：

mrm8488

原始信息汇总

数据集概述

名称: GoEmotions

描述: GoEmotions包含58,009条精心筛选的Reddit评论，标记有27种情感类别或中性。情感类别包括：admiration, amusement, anger, annoyance, approval, caring, confusion, curiosity, desire, disappointment, disapproval, disgust, embarrassment, excitement, fear, gratitude, grief, joy, love, nervousness, optimism, pride, realization, relief, remorse, sadness, surprise。

数据集大小:

训练数据集: 43,410条
测试数据集: 5,427条
验证数据集: 5,426条

数据格式:

原始数据分为三个CSV文件，包含所有注释及评论的元数据。每行代表一个评注者对单个例子的注释。
训练、开发和测试数据集文件（train.tsv, dev.tsv, test.tsv）无标题行，包含文本、逗号分隔的情感ID列表和评论ID。

数据获取:

原始数据可通过以下命令下载：

wget -P data/full_dataset/ https://storage.googleapis.com/gresearch/goemotions/data/full_dataset/goemotions_1.csv wget -P data/full_dataset/ https://storage.googleapis.com/gresearch/goemotions/data/full_dataset/goemotions_2.csv wget -P data/full_dataset/ https://storage.googleapis.com/gresearch/goemotions/data/full_dataset/goemotions_3.csv

数据集局限性:

数据集存在偏见，不代表全球多样性。
包含潜在问题内容。
评注者均为印度本土英语使用者，可能影响标签的准确性和召回率。

搜集汇总

数据集介绍

构建方式

在情感计算领域，构建高质量的情感标注数据集对于推进细粒度情感分析研究至关重要。GoEmotions数据集通过从Reddit平台精心筛选58,009条评论，并邀请标注者对每条评论进行27种情感类别及中性类别的多标签标注，确保了数据的丰富性与多样性。标注过程中采用多人标注机制，并通过标注者间一致性筛选出训练、验证和测试子集，有效提升了数据的可靠性与标注质量，为情感识别模型提供了扎实的数据基础。

使用方法

该数据集适用于训练和评估细粒度情感分类模型，用户可通过下载提供的CSV或TSV格式文件直接加载数据。数据已按标注一致性划分为训练集、验证集和测试集，便于进行模型训练、调优与性能测试。研究人员可利用附带的Python脚本进行数据统计分析、情感词汇提取及降维可视化，以深入理解情感分布与关联。此外，数据集配套的教程详细演示了如何构建神经网络模型进行情感预测，并拓展至对话文本的情感驱动应用，为情感计算研究提供了完整的实践框架。

背景与挑战

背景概述

在情感计算与自然语言处理领域，细粒度情感分析一直是推动对话系统与情感智能发展的核心议题。GoEmotions数据集由Google研究团队于2020年创建，旨在通过大规模、精细标注的社交媒体文本，为情感分类研究提供高质量资源。该数据集收录了来自Reddit平台的58,009条评论，并由人工标注为27种情感类别及中性类别，涵盖了从钦佩、娱乐到悲伤、惊喜等广泛的情感维度。其设计不仅促进了多标签情感分类模型的演进，也为情感理解在现实应用中的落地提供了重要基准，对心理学与计算语言学的交叉研究产生了深远影响。

当前挑战

GoEmotions数据集致力于解决细粒度情感分类中的核心挑战，即如何准确识别与区分人类表达中复杂且交织的情感状态。在构建过程中，研究团队面临标注一致性的难题，需通过多标注者协议机制确保数据质量，同时应对社交媒体文本中存在的噪声与歧义。此外，数据源固有的偏见问题，如Reddit用户群体的代表性局限及标注者的文化背景单一性，可能影响模型的泛化能力与公平性。这些挑战要求后续研究在利用该数据集时，需谨慎处理偏差并探索更具包容性的情感建模方法。

常用场景

经典使用场景

在情感计算领域，GoEmotions数据集为细粒度情感分类任务提供了关键资源。该数据集源自Reddit平台的评论数据，涵盖了27种情感类别及中性类别，共计58,009条标注样本。其经典应用场景在于训练和评估深度学习模型，如基于Transformer的预训练语言模型，以识别文本中微妙且多样的情感表达。通过高一致性的标注策略，该数据集支持多标签分类研究，使模型能够捕捉人类情感的复杂性和重叠性，为情感分析领域的算法优化奠定了坚实基础。

解决学术问题

GoEmotions数据集有效解决了情感分析研究中细粒度情感识别不足的学术问题。传统情感分类通常局限于积极、消极和中性等粗粒度类别，难以反映真实场景中情感的丰富层次。该数据集通过引入如钦佩、娱乐、愤怒、好奇等27种精细情感，推动了多标签情感分类模型的发展，促进了情感维度理论的实证研究。其高质标注数据有助于探索情感之间的相关性，如情感共现模式，为理解情感表达的心理学机制提供了数据支持，提升了情感计算模型的解释性和泛化能力。

实际应用

在实际应用层面，GoEmotions数据集被广泛用于构建智能对话系统和内容推荐引擎。例如，在社交媒体平台中，基于该数据集训练的模型可实时分析用户评论的情感倾向，辅助内容审核或个性化互动，如自动生成情感化回复或推荐适配的表情符号。此外，在心理健康监测领域，该数据集支持开发情感追踪工具，帮助识别用户文本中的潜在情绪波动，为早期干预提供参考。其应用延伸至市场分析，企业可通过情感分析洞察消费者对产品或服务的情感反馈，优化营销策略。

数据集最近研究