EMPATHICSTORIES++

Name: EMPATHICSTORIES++
Creator: 麻省理工学院
Published: 2024-05-25 00:57:18
License: 暂无描述

arXiv2024-05-25 更新2024-06-21 收录

下载链接：

https://mitmedialab.github.io/empathic-stories-multimodal/

下载链接

链接失效反馈

官方服务：

资源简介：

EMPATHICSTORIES++是一个多模态数据集，旨在研究个人经历分享中的同理心。该数据集由麻省理工学院创建，包含41名参与者在一个月内的53小时视频、音频和文本数据，这些数据是在自然环境中与AI代理交互时收集的。数据集不仅包括原始的多模态数据，还包括心理测量调查，以推动计算同理心研究。EMPATHICSTORIES++是首个关注同理心的纵向数据集，通过在参与者家中部署社交机器人，捕捉了自然、同理心的故事讲述交互。该数据集的应用领域包括开发具有同理心的AI系统，以及在真实世界环境中理解人类同理心的复杂性。

EMPATHICSTORIES++ is a multimodal dataset designed to study empathy in personal experience sharing. Developed by the Massachusetts Institute of Technology (MIT), this dataset contains 53 hours of video, audio and text data from 41 participants over a one-month period, collected during natural in-the-wild interactions with AI Agents. In addition to raw multimodal data, the dataset also includes psychometric surveys to advance computational empathy research. EMPATHICSTORIES++ is the first longitudinal dataset focused on empathy, capturing natural and empathetic story-telling interactions by deploying social robots in participants' homes. Its application areas include the development of empathetic AI systems and the understanding of the complexity of human empathy in real-world environments.

提供机构：

麻省理工学院

创建时间：

2024-05-25

搜集汇总

数据集介绍

构建方式

在情感计算与人工智能领域，构建能够捕捉真实共情表达的数据集面临诸多挑战。EMPATHICSTORIES++数据集的构建采用了一种创新的纵向多模态采集方法。研究团队在参与者家中部署了46台社交机器人，通过为期一个月的自然交互，收集了41名参与者在269次会话中的个人经历分享与共情阅读数据。数据采集过程严格遵循伦理规范，获得了机构审查委员会的批准与参与者的明确同意。每个会话均包含热身、故事分享、故事接收、反思与冷却五个阶段，并通过高清摄像头、麦克风及实时语音转录技术，同步记录了总计53小时的视频、音频及文本数据。此外，研究还系统性地采集了参与者在研究前、中、后期自我报告的心理测量学数据与共情评分，确保了数据在情境、时间与主观维度上的丰富性。

特点

EMPATHICSTORIES++数据集的核心特点在于其真实性、纵向性与多模态性。作为首个在自然环境中长期收集的共情数据集，它突破了传统实验室或表演性场景的局限，真实记录了参与者在家庭环境中与AI代理分享脆弱经历及阅读他人故事时的自然反应。数据集涵盖了长达一个月的纵向交互，使得研究者能够追踪共情随个人经历与时间变化的动态过程。其多模态特性不仅提供了视频、音频和文本的原始数据，还包含了从OpenFace、openSMILE及预训练语言模型中提取的低层特征，以及人格特质、社会连接感等心理测量学标签。这种结合了客观行为数据与主观自我报告的设计，为深入探究共情的认知机制及其在真实人机交互中的表现提供了前所未有的资源。

使用方法

该数据集为计算共情与社会情感推理研究提供了多方面的应用途径。研究者可利用其进行基于个人经历的共情预测任务建模，例如根据用户自身分享的故事内容或其对他者故事的反思，预测其共情水平。数据集提供的多模态特征支持开发与评估先进的融合模型，以探索语言、视觉与听觉线索在共情表达中的协同作用。其纵向设计使得针对个体共情模式的个性化建模成为可能，有助于理解共情随时间与经历积累的演变规律。此外，公开的数据与基准测试结果为比较不同模型在真实世界共情识别任务上的性能提供了标准，推动了社交情感AI系统向更自然、更具理解力的方向发展。使用时应严格遵守数据使用协议，确保仅用于促进共情研究的伦理目的。

背景与挑战

背景概述

在人工智能与心理学交叉领域，共情建模因其固有的主观性与情境依赖性，长期被视为一项复杂挑战。EMPATHICSTORIES++数据集由麻省理工学院媒体实验室的研究团队于2024年创建，旨在通过真实世界环境下的多模态数据采集，突破传统共情数据集的局限。该数据集的核心研究问题聚焦于探索个体过往经历如何影响其对他者故事的共情反应，通过为期一个月的家庭社交机器人部署，收集了41名参与者在分享个人经历与阅读共鸣故事时的视频、音频及文本数据，并辅以心理测量学调查。这一开创性工作首次实现了在自然情境下对共情反应的纵向追踪与自我标注，为计算共情研究提供了前所未有的高生态效度资源，显著推动了社交情感人工智能向更人性化、情境化方向的发展。

当前挑战

该数据集致力于解决的领域核心挑战，在于如何精准建模人类共情这一高度主观且依赖个人经验的心理过程。传统共情识别任务常受限于实验室环境、单次交互数据及第三方标注，难以捕捉真实场景中动态演变的共情表达。在构建过程中，研究团队面临多重技术与人本挑战：首先，需在保障参与者隐私与舒适度的前提下，于家庭环境中部署社交机器人并采集敏感的个人叙事数据，这对技术可靠性与伦理审查提出了极高要求；其次，设计能够自然诱发深度共情反应的交互流程，并确保跨月度纵向数据的时间一致性与可比性；再者，整合视频、音频、文本及自我报告等多模态异质数据，并对其进行高质量的特征提取与对齐，以支撑后续的复杂计算建模。这些挑战共同指向了在真实世界中构建可信、可用且合乎伦理的共情计算基准所必须跨越的鸿沟。

常用场景

经典使用场景

在情感计算与社交机器人研究领域，EMPATHICSTORIES++数据集为探索共情建模提供了独特的多模态实验平台。该数据集通过长达一个月的家庭环境部署，记录了参与者分享个人经历与阅读他人故事时的视频、音频及文本数据，并辅以心理测量学调查。其经典使用场景在于为基于个人经验背景的共情预测任务提供基准测试框架，研究者可利用该数据集训练模型，依据用户自身讲述的故事内容或反思文本，预测其对他人经历的共情程度。这种场景设计深刻捕捉了共情作为主观心理过程的动态性与情境依赖性。

衍生相关工作

该数据集的发布催生了一系列聚焦于情境化与纵向共情建模的衍生研究。例如，研究者基于其多模态数据对比了AMER、TFN、LF-LSTM等先进模型在共情预测任务上的性能，揭示了文本模态在故事分享阶段的主导作用，以及视听模态在反思阶段的重要性。相关工作进一步探索了利用预训练语言模型如GPT-4进行共情相似度计算的新方法。这些研究不仅深化了对共情计算机制的理解，也为构建更具适应性的社会情感人工智能系统奠定了算法基础。

数据集最近研究