five

DAMI-P2C

收藏
arXiv2020-08-21 更新2024-06-21 收录
下载链接:
https://forms.gle/FXJAPRUgkLwbW8NN9
下载链接
链接失效反馈
官方服务:
资源简介:
DAMI-P2C数据集由麻省理工学院媒体实验室创建,专注于亲子互动中的情感识别。该数据集包含34个家庭的音频数据,每个家庭由一名家长和一名3-7岁的孩子组成,共同阅读故事书。数据集不仅包括音频特征,还有情感标注和家庭的社会、发展及人口统计学资料。DAMI-P2C旨在解决多说话者情感感知的挑战,特别是在亲子互动场景中,通过提供丰富的情感和互动数据,支持开发更有效的情感识别技术。

The DAMI-P2C dataset was created by the MIT Media Lab, focusing on emotion recognition in parent-child interactions. It contains audio data from 34 families, each consisting of one parent and a child aged 3 to 7 years old, who read storybooks together. The dataset not only includes audio features but also emotional annotations as well as social, developmental, and demographic information of the families. DAMI-P2C aims to address the challenge of multi-speaker emotion perception, particularly in parent-child interaction scenarios, and supports the development of more effective emotion recognition technologies by providing rich emotional and interactive data.
提供机构:
麻省理工学院媒体实验室
创建时间:
2020-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算与亲子互动研究领域,DAMI-P2C数据集的构建体现了严谨的实证科学范式。该数据集采集自34个家庭的亲子共读情境,通过实验室环境下的标准化协议,记录父母与3-7岁儿童在自然故事阅读中的双向互动。数据采集采用多角度摄像与专业音频设备,确保原始信号的高保真度。情感标注由三位具备心理学或教育学背景的标注员独立完成,以五秒非重叠片段为单元,对父母与儿童的效价和唤醒度分别进行五级量表标注,最终通过标准化处理与平均计算形成高质量标注结果。
使用方法
该数据集适用于端到端深度学习框架下的双说话者情感识别研究。研究者可直接使用数据集提供的低层级声学描述符作为模型输入,结合卷积循环深度神经网络架构进行特征学习与情感预测。数据集支持留一说话者组交叉验证策略,确保模型评估的受试者独立性。通过集成局部注意力机制,模型能够自动聚焦于目标说话者的情感相关信息区域,实现隐式的说话人分离与情感特征提取。该数据集为开发面向亲子互动的智能教育技术提供了重要的基准数据与验证平台。
背景与挑战
背景概述
在情感计算与人机交互领域,双人对话中的情感自动识别一直是一项复杂任务,传统方法依赖手工特征提取与说话人分割,限制了模型的泛化能力与实时应用。为应对这一挑战,麻省理工学院媒体实验室的研究团队于2020年推出了DAMI-P2C数据集,该数据集聚焦于亲子共读情境下的双人情感交互,旨在通过端到端深度学习框架,实现无需预处理的说话人情感同步识别。该数据集收录了34个家庭的亲子互动音频,涵盖多样化的社会文化背景,并首次为双说话人的每个实例提供三位标注者的情感标注,为多说话人情感感知研究提供了宝贵资源。
当前挑战
DAMI-P2C数据集致力于解决双人对话中个体情感识别的核心难题,其挑战主要体现在两方面:其一,在领域问题层面,传统情感识别模型通常假设音频为单人话语,而双人交互中说话人重叠与轮换使得特征提取与说话人分离极为困难,尤其儿童情感表达更为隐晦且多变,加剧了识别复杂度;其二,在构建过程中,数据采集需在自然亲子互动环境下进行,确保生态效度同时需协调多模态同步记录,而情感标注则面临主观性挑战,需通过多位标注者与严格的一致性评估来保证标注质量,这些因素共同构成了数据集构建的技术与实证壁垒。
常用场景
经典使用场景
在情感计算与多模态交互研究领域,DAMI-P2C数据集为双人对话中的语音情感识别提供了关键实验平台。该数据集通过记录34个家庭中父母与3-7岁儿童共同阅读故事的自然互动场景,捕捉了双人对话的原始音频流及精细的情感标注。其经典应用场景在于支持端到端深度学习模型的开发与验证,特别是针对多说话人情境下的个体情感强度(效价与唤醒度)预测。研究者可利用该数据集训练具有局部注意力机制的卷积循环深度神经网络,自动识别音频流中与目标说话人情感相关的时序区域,从而避免了传统方法中依赖人工预处理与说话人分割的局限性。
解决学术问题
DAMI-P2C数据集有效解决了多说话人语音情感识别中的若干核心学术难题。传统研究通常假设音频已按说话人身份进行人工分割,或将多说话人情感建模视为说话人日志化与情感识别的两步问题。该数据集通过提供双人互动中每位参与者的独立情感标注,首次实现了对同一音频流中父母与儿童情感的同步建模。这推动了端到端架构的发展,使模型能够自动学习聚焦于目标说话人的时序特征,从而在单一框架内隐式完成说话人日志化与情感识别。该工作为多说话人情感感知这一挑战性任务建立了竞争性基线,并促进了个性化、文化敏感性情感模型的理论探索。
实际应用
DAMI-P2C数据集的实际应用价值主要体现在智能教育技术与家庭交互支持系统中。基于该数据集开发的语音情感识别模型,可集成于人工智能学习伴侣或教育机器人,实时感知父母与儿童在共读互动中的情感状态。这种能力使得技术能够提供个性化的交互反馈与干预,例如在儿童表现出低唤醒或负效价时,系统可建议父母调整阅读策略或引入激励性对话。此外,数据集包含的家庭发展背景与社会人口学信息,为构建适应不同社会经济地位与文化背景的家庭支持工具提供了数据基础,有助于缩小家庭教育中的“参与差距”,提升亲子互动质量与儿童语言发展成效。
数据集最近研究
最新研究方向
在情感计算领域,DAMI-P2C数据集作为首个专注于亲子二元互动中双方情感标注的多模态资源,正推动着多说话人情感识别的前沿探索。该数据集通过引入端到端深度学习框架,结合局部注意力机制,实现了在未进行说话人分割的音频流中自动聚焦目标说话人的情感信息,显著提升了儿童唤醒度和父母效价预测的准确性。这一进展不仅突破了传统方法依赖手工特征和说话人分割的局限,还为开发实时个性化交互系统提供了技术基础,尤其在促进低社会经济地位家庭亲子对话质量方面具有深远的社会意义。当前研究热点进一步扩展到结合说话人分离的多任务学习、文化敏感性建模以及多模态数据融合,以应对真实场景中的背景噪声和光照变化等挑战,推动情感感知技术向更鲁棒、更个性化的方向发展。
相关研究论文
  • 1
    Dyadic Speech-based Affect Recognition using DAMI-P2C Parent-child Multimodal Interaction Dataset麻省理工学院媒体实验室 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作