five

MoodPulse

收藏
Hugging Face2025-08-06 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/psyrishi/MoodPulse
下载链接
链接失效反馈
官方服务:
资源简介:
MoodPulse数据集是一个针对情感分析的情感检测NLP管道的预处理数据集。它基于GoEmotions数据集,包含了58k个经过精心挑选的Reddit评论,这些评论被标记为28种细粒度情绪。在本数据集中,情绪标签被简化为三种:积极、中立和消极。数据集结构化以支持AffectiveLens管道的每个阶段,包括原始CSV文件、标记化的数据格式和预计算的DistilBERT嵌入。
创建时间:
2025-08-05
原始信息汇总

MoodPulse: Processed Data and Embeddings for Emotion Analysis

数据集概述

  • 名称: MoodPulse
  • 用途: 为情感分析提供处理后的数据和嵌入向量
  • 源数据集: GoEmotions
  • 处理工具: AffectiveLens pipeline
  • 语言: 英语
  • 标签: emotion-classification, affective-computing, text-classification, goemotions, distilbert, embeddings
  • 任务类别: text-classification
  • 许可证: MIT

数据集描述

  • 基础数据: 基于Google Research的GoEmotions数据集,包含58k条Reddit评论,标注了28种细粒度情感。
  • 情感类别: 将原始标签简化为三个互斥的情感类别:
    • Positive
    • Neutral
    • Negative
  • 处理阶段: 支持从原始文本到最终DistilBERT句子嵌入的完整处理流程。

数据集结构

  • data/full_dataset/: 原始GoEmotions CSV文件,分为多个部分。
  • data/processed/: 使用Hugging Face datasets格式进行标记化的数据集。
  • data/embeddings/: 训练集和测试集的最终DistilBERT [CLS]标记嵌入。

使用方法

python from datasets import load_dataset

repo_id = "psyrishi/MoodPulse" data_folder = "data/embeddings/MentalTrain" # 或 "data/embeddings/MentalTest"

train_embeddings = load_dataset(repo_id, data_dir=data_folder, split=train)

使用案例

  • 训练或评估情感分类模型。
  • 比较传统ML模型与基于Transformer的模型性能。
  • 构建情感感知应用(如心理健康、客户反馈或社交媒体监控)。

引用

bibtex @inproceedings{demszky2020goemotions, title={GoEmotions: A Dataset of Fine-Grained Emotions}, author={Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL)}, year={2020} }

许可证

  • 原始数据: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 代码和处理逻辑: MIT License

相关项目

搜集汇总
数据集介绍
main_image_url
构建方式
MoodPulse数据集基于Google Research开发的GoEmotions数据集构建,原始数据包含58,000条经过精细标注的Reddit评论,涵盖28种细粒度情感类别。通过AffectiveLens处理流程,将原始情感标签归纳为相互排斥的三类情感(积极、中性、消极),并系统性地构建了包含原始CSV文件、Hugging Face格式的分词数据以及预计算的DistilBERT嵌入向量的多层次数据结构。这种端到端的处理方式确保了数据从原始文本到最终嵌入表示的无缝转换,为研究者提供了完整的可复现研究基础。
特点
该数据集最显著的特点在于其多层次的结构设计,不仅保留了原始文本数据,还提供了经过标准化的分词结果和基于DistilBERT模型的预计算句嵌入。这种结构允许研究者根据需求灵活选择数据处理阶段,既可以直接使用高质量的嵌入向量快速构建分类模型,也能回溯到分词或原始文本层面进行定制化分析。特别值得注意的是,数据集通过[CLS]标记的嵌入表示,有效捕捉了文本的情感语义特征,为情感计算研究提供了高质量的基准数据。
使用方法
使用Hugging Face的datasets库可以便捷地加载不同处理阶段的数据。通过指定仓库ID和对应的数据目录,研究者可灵活加载分词数据或预计算嵌入。嵌入向量和标签数据以字典结构存储,其中'cls_embedding'键对应DistilBERT的[CLS]标记嵌入,'labels'键存储情感类别标签。这种标准化接口设计使得数据集能够无缝集成到现有机器学习流程中,支持从模型训练到性能评估的全流程开发。对于需要自定义处理的研究,还可以通过修改data_dir参数访问原始分词数据。
背景与挑战
背景概述
MoodPulse数据集是基于Google Research发布的GoEmotions数据集构建的,由AffectiveLens项目团队进一步处理而成,专注于文本情感分析领域。GoEmotions数据集最初发布于2020年,包含了58,000条经过精细标注的Reddit评论,涵盖了28种细粒度情感类别。MoodPulse通过将原始标签简化为积极、中性和消极三类互斥情感,为情感分类研究提供了更为简洁的数据基础。该数据集不仅包含了原始文本数据,还提供了经过分词处理的文本及预计算的DistilBERT嵌入向量,极大简化了研究者的预处理流程,推动了情感计算领域的发展。
当前挑战
MoodPulse数据集面临的主要挑战包括情感分类任务的固有复杂性,尤其是文本情感的多义性和上下文依赖性。尽管数据集简化了情感类别,但如何准确捕捉文本中的情感倾向仍是一个难题。此外,数据集的构建过程中,从原始GoEmotions数据到最终嵌入向量的转换涉及多个处理步骤,包括数据清洗、标签转换、分词和嵌入计算,每一步都可能引入偏差或信息损失。如何确保处理流程的可靠性和一致性,以及如何优化嵌入表示以提高分类性能,是数据集构建过程中需要克服的关键挑战。
常用场景
经典使用场景
在情感计算领域,MoodPulse数据集为研究者提供了一个高效的情感分类基准测试平台。该数据集通过预处理的DistilBERT嵌入向量,显著简化了模型训练流程,使得研究者能够快速验证各类深度学习架构在情感极性分类任务上的性能表现。其经典应用场景包括社交媒体评论情感分析、用户生成内容的情感倾向评估等文本分类任务,为自然语言处理领域提供了标准化的实验数据。
实际应用
在实际应用层面,MoodPulse支持构建智能客服情绪感知系统、心理健康监测工具等情感敏感型应用。医疗机构可利用其嵌入特征开发抑郁症筛查模型,电商平台则能基于该数据集训练用户评论情感分析模块。数据集提供的标准化处理流程确保了不同应用场景下模型性能的可比性,为产业界情感计算解决方案提供了可靠的数据基础。
衍生相关工作
围绕MoodPulse数据集,学术界已衍生出多项重要研究成果。AffectiveLens项目构建了端到端的情感检测管道,而后续研究则探索了基于该数据集的多模态情感融合方法。部分工作专注于改进三分类体系的标注策略,另有研究利用其预计算嵌入特征开发了轻量级移动端情感分析模型,推动了边缘计算环境下的实时情感识别技术发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作