EmotionAtlas
收藏Hugging Face2025-06-01 更新2025-06-02 收录
下载链接:
https://huggingface.co/datasets/entfane/EmotionAtlas
下载链接
链接失效反馈官方服务:
资源简介:
EmotionAtlas是一个高质量的情感丰富的文本提示合成数据集,每个条目包含一个用户输入的提示和相应的情感状态的详细描述。该数据集通过使用Google Gemini 2.0 Flash的强大语言能力生成,覆盖了各种情感体验的细微差别和多样性。它被设计用于情感对话AI的应用。
创建时间:
2025-06-01
原始信息汇总
EmotionAtlas 数据集概述
基本信息
- 数据集名称: EmotionAtlas
- 许可证: MIT
- 语言: 英语 (en)
- 数据规模: 1K<n<10K
- 下载大小: 214146 bytes
- 数据集大小: 828590 bytes
- 任务类别: 文本生成 (text-generation)
数据集结构
- 特征:
prompt: 用户输入 (string)emotional_description: 用户情感状态的简要描述 (string)
- 拆分:
train: 包含 3300 个示例,总大小为 828590 bytes
数据集描述
EmotionAtlas 是一个高质量的人工合成数据集,包含情感丰富的文本提示及其对应的情感状态。该数据集利用 Google Gemini 2.0 Flash 的强大语言能力生成,涵盖了各种情感体验的细腻和多样化示例。
用途
该数据集专为情感对话 AI 设计。
数据集生成
数据集生成脚本托管在 GitHub: https://github.com/entfane/psychotherapy_synthesis
搜集汇总
数据集介绍

构建方式
EmotionAtlas数据集通过Google Gemini 2.0 Flash的强大语言生成能力构建而成,专注于捕捉丰富多样的情感状态。生成过程严格遵循脚本流程,确保每一条数据都包含用户输入提示及对应的情感描述。该数据集旨在为情感对话AI提供高质量的训练素材,其构建方法体现了对情感细微差别的精准把握。
特点
EmotionAtlas数据集以其情感描述的细腻性和多样性著称,包含3300条高质量文本数据。每条数据由用户提示和情感描述两部分组成,覆盖广泛的情感体验。数据集采用英文构建,体积适中,便于研究人员快速加载和处理。其结构清晰的特点使其成为情感计算领域的理想选择。
使用方法
该数据集适用于文本生成任务,特别适合用于训练情感对话AI系统。研究人员可直接从HuggingFace平台下载,数据已预分割为训练集。使用前需确认符合MIT许可协议要求。建议结合GitHub提供的生成脚本进行二次开发,以充分发挥数据集在情感计算领域的潜力。
背景与挑战
背景概述
EmotionAtlas数据集诞生于人工智能情感计算领域快速发展的背景下,由研究团队借助Google Gemini 2.0 Flash的强大语言生成能力构建而成。该数据集聚焦于情感丰富的文本提示与对应情感状态的关联性研究,旨在为情感对话AI系统提供高质量的语料支持。其核心研究问题在于如何通过合成数据准确捕捉人类情感的细微差异,并建立文本表达与情感状态之间的映射关系。作为情感计算领域的新型资源,EmotionAtlas通过3300条精心生成的样本,为情感识别、情感生成等研究方向提供了重要的数据基础。
当前挑战
构建EmotionAtlas面临的主要挑战体现在两个方面:在领域问题层面,情感状态的复杂性和主观性使得准确标注和生成具有高可信度的情感描述变得困难,需要解决情感粒度划分和跨文化情感表达差异等核心问题;在技术实现层面,依赖大语言模型生成合成数据虽然提高了效率,但需要严格控制生成质量,避免陷入情感刻板印象或表达单一化的困境,同时确保生成样本在情感维度和语言风格上的多样性。如何平衡数据规模与情感表达的深度和广度,是该数据集持续优化面临的关键挑战。
常用场景
经典使用场景
在情感计算与人机交互领域,EmotionAtlas数据集为研究者提供了丰富的情绪化文本范例。该数据集通过精心设计的提示词与情感描述配对,成为训练情感识别模型的理想素材。特别是在对话系统开发中,工程师能够利用这些标注数据优化AI的情感理解能力,使机器生成的回应更具共情特质。
实际应用
心理治疗辅助系统正逐步采用EmotionAtlas数据集训练对话代理。这些系统能够通过分析用户输入中的情感线索,提供初步的心理状态评估。教育科技公司则利用该数据集开发情感智能辅导工具,使数字助教能根据学习者的情绪状态动态调整交互策略,显著提升在线学习体验。
衍生相关工作
基于EmotionAtlas的基准测试催生了多项创新研究,包括情绪感知对话生成框架EmpathicGPT的开发。斯坦福大学团队利用该数据集构建了首个多模态情感解释模型,而MIT媒体实验室则衍生出情绪迁移学习技术,这些突破性工作正在重塑智能交互系统的设计范式。
以上内容由遇见数据集搜集并总结生成



