AVCAffe
收藏arXiv2022-11-25 更新2024-06-21 收录
下载链接:
https://pritamqu.github.io/AVCAffe
下载链接
链接失效反馈官方服务:
资源简介:
AVCAffe是首个包含认知负荷和情感属性的音频-视觉数据集,通过模拟远程工作场景收集。数据集由女王大学和向量研究所创建,包含106名来自18个不同国家的参与者,年龄跨度为18至57岁,性别比例平衡。数据集总计包含108小时视频,相当于超过58,000个片段,每个片段都附有基于任务的自报告真实标签,用于评估唤醒、价态和多种认知负荷属性。该数据集旨在为深度学习研究社区提供一个挑战性的基准,特别是在远程工作环境中理解和量化认知负荷和情感状态。
AVCAffe is the first audio-visual dataset incorporating cognitive load and affective attributes, collected through simulated remote work scenarios. Developed by Queen's University and the Vector Institute, this dataset includes 106 participants from 18 distinct countries, with an age range of 18 to 57 years and a balanced gender ratio. It contains a total of 108 hours of video, equivalent to over 58,000 segments, each paired with task-based self-reported ground-truth labels for evaluating arousal, valence, and multiple cognitive load attributes. This dataset aims to provide a challenging benchmark for the deep learning research community, particularly for understanding and quantifying cognitive load and affective states in remote work environments.
提供机构:
女王大学, 加拿大 2 向量研究所
创建时间:
2022-05-14
搜集汇总
数据集介绍

构建方式
在远程工作日益普及的背景下,AVCAffe数据集的构建旨在模拟真实的视频会议场景,以捕捉参与者的认知负荷与情感状态。研究团队通过Zoom平台招募了106名来自18个不同国家、年龄跨度为18至57岁的参与者,并设计了一系列认知参与度各异的协作任务,包括开放式讨论、地图匹配、多任务处理等七项活动。每项任务结束后,参与者使用NASA任务负荷指数和自我评估曼尼金量表对自身的认知负荷与情感维度进行自我报告,从而获得高质量的标注数据。整个会话过程被完整录制,最终生成了超过108小时的视频材料,并依据语音停顿分割为约58,000个短视频片段,形成了规模庞大且标注丰富的多模态数据集。
特点
AVCAffe数据集在情感计算领域具有显著的独特性与代表性。作为首个同时包含认知负荷与情感标注的大规模音视频数据集,它填补了远程工作场景下相关研究数据的空白。数据集的参与者群体在年龄、性别、职业与文化背景方面呈现出高度多样性,确保了数据的广泛代表性。其标注体系不仅涵盖了情感维度中的唤醒度与效价,还细致刻画了认知负荷的多个方面,如心理需求、时间压力与努力程度等。尤为重要的是,所有标注均基于参与者的自我报告,避免了外部标注的主观偏差,从而提升了数据的可靠性与内在一致性。
使用方法
AVCAffe数据集为深度学习社区提供了研究认知负荷与情感识别的宝贵资源。研究者可利用其提供的完整视频、分割后的短视频片段以及对应的多维度标注,开展单模态或多模态的机器学习模型训练与评估。数据集已按参与者进行了标准的训练集与验证集划分,确保了数据分离的严谨性。在具体应用中,可提取视频中的面部图像序列与音频的梅尔频谱图作为输入特征,并采用如R(2+1)D、ResNet3D等视觉骨干网络与VGG、ResNet等音频骨干网络进行特征学习。研究目标可设定为对情感状态的多分类任务以及对认知负荷的二分类任务,通过加权F1分数等指标对模型性能进行基准评估,推动远程工作场景下人性化计算系统的发展。
背景与挑战
背景概述
随着远程工作模式的普及,个体在视频会议环境中面临的认知负荷与情感状态变化成为人机交互领域的重要研究议题。AVCAffe数据集由加拿大女王大学与Vector Institute的研究团队于2023年推出,旨在填补远程工作场景下多模态情感与认知计算数据的空白。该数据集通过模拟协作任务场景,采集了106名参与者在七类认知任务中的音视频记录,并提供了基于自我报告的唤醒度、效价及多维认知负荷标注。作为目前规模最大的原创英语多模态情感计算数据集,AVCAffe不仅为深度学习社区提供了评估模型性能的基准,更推动了远程工作效率管理与心理健康干预工具的开发。
当前挑战
在解决远程工作场景中认知与情感状态识别这一领域问题时,主要挑战在于多模态信号与复杂心理状态间的非线性映射关系。认知负荷作为多维构念,其与面部表情、语音韵律等外部特征的关联性较弱,且易受个体差异与任务类型干扰。在数据集构建过程中,研究团队面临实验设计的生态效度平衡难题:需通过结构化任务诱发差异化的认知与情感响应,同时避免干扰参与者的自然交互状态。此外,基于自我报告的标注方式虽能保障认知负荷标注的信度,却导致数据标注粒度稀疏,为时序建模带来显著困难。
常用场景
经典使用场景
在远程工作日益普及的背景下,AVCAffe数据集为情感计算与认知负荷研究提供了首个大规模音视频基准。该数据集通过模拟视频会议环境中的协作任务,如开放式讨论、地图匹配和多任务处理,精准捕捉参与者在不同认知负荷下的自发行为与情感波动。其经典应用场景在于为深度学习模型提供训练与验证平台,推动多模态情感识别与认知状态评估算法的创新与发展。
实际应用
在实际应用中,AVCAffe为开发智能远程协作工具提供了关键数据支持。基于该数据集训练的模型可集成于视频会议系统,实时监测用户的认知负荷与情感状态,从而优化会议安排、减少疲劳并提升协作效率。此外,其在心理健康辅助、远程教育适应性评估以及人机交互界面设计等领域也具有广阔的应用前景。
衍生相关工作
AVCAffe的发布催生了一系列围绕多模态认知负荷与情感分析的经典研究。例如,基于该数据集的基准测试推动了融合音频与视觉特征的深度学习架构创新,如使用R(2+1)D与ResNet3D等模型进行多模态融合。后续工作进一步探索了认知负荷与情感状态的关联性,并衍生出面向远程工作场景的个性化适应性系统,持续拓展了情感计算在现实环境中的应用边界。
以上内容由遇见数据集搜集并总结生成



