MuSe-CaR

Name: MuSe-CaR
Creator: MuSe 2021 Challenge Organizers
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/lstappen/MuSe2021

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要关注用户生成的评论，用于情感和情绪分析。它旨在完成的任务包括情感和情绪识别，以及生理情绪和基于情绪的压力识别。

This dataset primarily focuses on user-generated comments for sentiment and emotion analysis. Its intended tasks include sentiment and emotion recognition, as well as physiological emotion recognition and emotion-based stress recognition.

提供机构：

MuSe 2021 Challenge Organizers

搜集汇总

数据集介绍

构建方式

MuSe-CaR数据集源自YouTube平台上汽车评测视频的半自动化采集。研究团队首先通过关键词爬取高互动视频，并主动联系创作者获得学术使用授权。在获得同意后，由三名评审员对视频进行初步筛选，依据其在自然环境中的情感丰富度、视频质量及是否符合真实世界条件进行评分，最终保留了303个视频，总时长超过40小时。随后，数据集采用了多层次人工与自动相结合的标注流程：连续情感维度（如唤醒度、效价和可信赖度）由至少五名标注员通过操纵杆在DARMA软件中实时追踪；同时，利用ELAN工具对说话主题、物理实体等类别进行标注。此外，团队还利用Google Cloud和Amazon Transcribe服务自动生成了文字转录，并辅以基于深度学习的半自动面部和车身部件检测。

特点

该数据集的核心特点在于其前所未有的规模和真实世界属性。MuSe-CaR是目前已知最大的、包含连续情感标注的多模态情感分析数据集，其标注时长是同类数据集的数倍。它首次引入了‘可信赖度’这一连续情感维度，为研究用户生成内容中的主观感知提供了全新视角。数据集精心挑选了包含多种真实世界挑战的视频素材，如动态背景、镜头切换、面部遮挡（太阳镜）、环境噪音及画外音等，旨在推动模型在非受控环境下的鲁棒性。此外，超过15种标注层级（包括连续、二元、类别及自动提取特征）的丰富性，使得研究者能够深入探索情感、目标主题与物理实体之间的复杂交互关系。

使用方法

MuSe-CaR的使用方法灵活多样，主要围绕其公开的三个子任务展开。研究者可以通过访问Zenodo仓库获取预处理后的特征与标注数据。对于MuSe-Wild任务，需利用音频、视觉和文本特征，以时间连续的方式预测唤醒度和效价。MuSe-Topic任务则侧重于预测特定领域（汽车）的对话主题，并结合连续情感标签生成三类强度等级。MuSe-Trust任务要求模型预测连续的可信赖度信号，论文中提出的DEEPTRUST网络通过多头注意力机制与双向LSTM的结合，在此任务上取得了显著优于基线的效果。数据集的模态对齐时间戳支持词级、句级及话语级的融合实验，为多模态学习研究提供了理想的试验平台。

背景与挑战

背景概述

MuSe-CaR数据集由德国奥格斯堡大学嵌入式健康与福祉智能主席团队与英国帝国理工学院联合创建，于2020年首次发布，旨在推动真实场景下的多模态情感分析研究。该数据集聚焦于汽车评论视频中的情感、情感目标参与度和可信度识别，通过整合音频、视觉与语言模态，构建了超过40小时、涵盖300余条评论及70位主持人的大规模资源。其核心研究问题在于如何从非受控的‘野外’环境中提取并融合多模态信息，以提升情感计算的鲁棒性与泛化能力。作为首届多模态情感分析挑战赛（MuSe 2020）的测试平台，MuSe-CaR填补了现有数据集在连续情感标注与细粒度实体情感关联方面的空白，对情感计算、多媒体检索及人机交互领域产生了深远影响。

当前挑战

MuSe-CaR数据集面临的挑战主要体现为多维度复杂性的交织。首先，在领域问题层面，真实场景下的情感分析需应对高度不可控的‘野外’特性，包括视频中面部角度、遮挡（如太阳镜）、动态背景、音频中的环境噪声与多说话人混合、文本中的口语化表达及领域术语，这些因素严重干扰了模态信息的有效提取与融合。其次，在构建过程中，数据采集需平衡自然性与可控性，仅选取汽车评论领域以限定主题范围，但这也限制了上下文多样性；大规模连续情感标注依赖人工操作，五名标注者间的平均一致性系数（CCC）仅达0.265至0.350，反映出主观感知的显著差异；此外，自动语音转录的词错误率高达25%至28%，视觉实体标注需采用半自动方法以平衡成本与精度，这些均对数据质量与模型泛化构成了严峻考验。

常用场景

经典使用场景

MuSe-CaR数据集专为真实场景下的多模态情感分析而构建，其经典使用场景聚焦于汽车评测视频中的情感与信任度识别。该数据集整合了音频、视觉与文本三种模态，提供了长达40余小时、涵盖300余条评测视频的丰富素材，旨在模拟社交媒体中高度非受控的自然环境。研究者可借助该数据集，探索面部遮挡、视角变化、环境噪声及口语化表达等复杂因素对情感感知的影响，从而推动多模态情感计算从实验室条件向真实应用场景的跨越。

衍生相关工作

基于MuSe-CaR数据集，研究者已衍生出多项经典工作，包括首届多模态情感分析挑战赛MuSe 2020，该挑战赛设立了情感预测、情感-话题交互及可信度检测三个子任务，吸引了全球众多团队参与。此外，研究者提出了DEEPTRUST网络，通过多头注意力机制与双向LSTM的融合，在可信度预测任务上较基线提升了近50%。后续工作还探索了自注意力机制、多任务学习以及跨模态对齐等技术，进一步拓展了该数据集在连续情感估计与多模态融合领域的应用边界。

数据集最近研究