斯坦福情感叙事数据集(SENDv1)

Name: 斯坦福情感叙事数据集(SENDv1)
Creator: 新加坡国家大学信息系统与分析系
Published: 2019-11-22 15:55:08
License: 暂无描述

arXiv2019-11-22 更新2024-06-21 收录

下载链接：

https://github.com/StanfordSocialNeuroscienceLab/SEND

下载链接

链接失效反馈

官方服务：

资源简介：

斯坦福情感叙事数据集(SENDv1)是由新加坡国家大学信息系统与分析系的研究人员创建的，包含193个多模态视频，记录了个人自发讲述情感故事的过程。该数据集旨在为情感计算领域的时序情感识别模型提供高质量、自然主义的数据。数据集中的视频捕捉了丰富的情感表达和复杂的语义内容，为研究情感动态提供了挑战性的测试平台。此外，数据集还包括了情感效价随时间变化的，为模型训练和评估提供了丰富的标注信息。

The Stanford Emotional Narrative Dataset (SENDv1) was developed by researchers from the Department of Information Systems and Analytics, National University of Singapore. It contains 193 multimodal videos documenting spontaneous emotional storytelling by individuals. This dataset aims to provide high-quality, naturalistic data for temporal emotion recognition models in the field of affective computing. The videos in the dataset capture rich emotional expressions and complex semantic content, serving as a challenging testbed for research on emotional dynamics. Additionally, the dataset includes time-varying emotional valence annotations, which provide abundant labeled information for model training and evaluation.

提供机构：

新加坡国家大学信息系统与分析系

创建时间：

2019-11-22

搜集汇总

数据集介绍

构建方式

在情感计算领域，构建高质量的时间序列数据集对于捕捉真实世界情感的动态演变至关重要。斯坦福情感叙事数据集（SENDv1）的构建采用了精心设计的实验范式，旨在收集自然主义的情感表达数据。研究团队招募了来自美国西海岸郊区的参与者，要求他们回忆并讲述个人生活中最具积极和消极意义的事件，录制过程由参与者自主控制节奏，确保叙述的自发性和真实性。视频录制使用高清摄像机在标准化背景下进行，以最小化环境干扰，并随后通过视觉模拟量表收集参与者自我报告的情感效价时间序列标注。此外，数据集还引入了独立观察者的外部感知评分，通过亚马逊众包平台招募大量观察者对视频进行连续效价评分，并采用评估者加权估计器（EWE）计算黄金标准标注，从而为模型训练提供了基于外部可观测线索的情感标签。

特点

SENDv1数据集的核心特点在于其高度自然主义与丰富多模态性，为时间序列情感识别提供了独特挑战。该数据集包含193个未经脚本的情感生活叙事视频，涵盖积极、消极及混合情感内容，平均时长约2分钟，总时长超过7小时，确保了情感轨迹的多样性和复杂性。视频内容捕捉了参与者的面部表情、语音信号及语言叙述，并辅以精细的时间序列效价标注，实现了多模态数据的同步对齐。与以往受控或过度约束的数据集不同，SENDv1在最小化环境噪声的同时，保留了个人叙事中的语义深度与情感表达的天然变化，从而在生态效度与数据质量之间取得了平衡。此外，数据集按参与者划分为训练、验证和测试集，强制模型泛化到新个体，增强了其在实际应用中的鲁棒性。

使用方法

SENDv1数据集的使用方法聚焦于多模态时间序列情感识别模型的训练与评估。研究者可提取音频、文本和视觉特征：音频特征通过openSMILE工具包获取eGeMAPS参数集，文本特征利用GloVe词嵌入对转录语言进行表示，视觉特征则通过Emotient软件提取面部动作单元。所有特征需重采样至0.5秒时间窗口以实现多模态同步，并与黄金标准效价评分对齐。数据集支持多种建模方法，包括判别式模型如长短期记忆网络（LSTM）和生成式模型如变分循环神经网络（VRNN），其中编码器-解码器LSTM结合局部注意力机制，而VRNN通过潜在变量整合多模态生成过程。模型性能采用一致性相关系数（CCC）进行评估，该指标同时考虑预测与标注的相关性及偏差，从而全面衡量时间序列预测的准确性。数据集的划分确保了模型泛化能力的检验，为情感计算研究提供了可靠的基准平台。

背景与挑战

背景概述

情感计算领域长期致力于捕捉人类情感的动态演变过程，而高质量时序数据集的匮乏成为制约模型发展的关键瓶颈。斯坦福情感叙事数据集（SENDv1）由斯坦福大学心理学与计算机科学跨学科团队于2019年创建，旨在通过自然情境下的自述式情感叙事视频，为时序情感识别研究提供生态效度与可控性兼备的多模态数据资源。该数据集收录了49名参与者在标准化实验环境下讲述个人重要经历的视频，并同步采集了时间连续的情感效价标注，其核心价值在于突破了传统情感数据在自然表达与语义复杂性之间的平衡难题，为开发能够理解真实世界情感动态的计算模型奠定了数据基础。

当前挑战

在情感计算领域，时序情感识别面临双重挑战：一方面，真实场景中的情感表达具有高度非线性和个体差异性，传统静态模型难以捕捉其动态演变规律；另一方面，数据构建过程需克服自然表达与标注可靠性的矛盾。SENDv1的构建挑战具体体现在：首先，在保持叙事自然性的同时需确保多模态数据的时间对齐精度，涉及音频、文本、视觉特征的毫秒级同步技术难题；其次，情感标注需平衡主观体验与外部感知的差异，该数据集创新性地采用观察者加权评估方法，但如何建立更细粒度的情感维度标注体系仍是待解问题。此外，模型需处理叙事语义与情感表达的复杂耦合关系，当前最佳模型虽在文本特征上接近人类基准，但跨模态融合与长程依赖建模仍存在显著提升空间。

常用场景

经典使用场景

在情感计算领域，斯坦福情感叙事数据集（SENDv1）为时间序列情感识别研究提供了经典的应用场景。该数据集通过收集参与者自述情感生活故事的多模态视频，捕捉了自然状态下情感随时间的动态演变。研究者利用这些未脚本化的叙事数据，训练和评估各类时间序列模型，如长短期记忆网络和变分循环神经网络，以预测情感效价在连续时间点上的变化。这种设置模拟了真实对话中情感表达的复杂性，为开发能够理解人类情感动态的人工智能系统奠定了实证基础。

衍生相关工作

基于SENDv1数据集，研究者已衍生出一系列经典工作，推动了时间序列情感识别的前沿进展。例如，结合注意力机制的长短期记忆网络被用于提升对叙事关键情感片段的捕捉能力；多模态变分循环神经网络则探索了隐变量在情感动态建模中的解释作用。此外，该数据集还激发了关于事件驱动情感模型、跨模态融合策略以及基于评估理论的情感生成机制的研究，这些工作共同深化了对情感时序动力学与多模态表达之间复杂关系的理解。

数据集最近研究