Multimodal Objectifying Gaze (MObyGaze)

Name: Multimodal Objectifying Gaze (MObyGaze)
Creator: 法国蔚蓝海岸大学, 法国国家科学研究中心, I3S
Published: 2025-05-28 16:07:28
License: 暂无描述

arXiv2025-05-28 更新2025-04-17 收录

下载链接：

https://anonymous.4open.science/r/MObyGaze-F600/

下载链接

链接失效反馈

官方服务：

资源简介：

MObyGaze数据集由蔚蓝海岸大学等研究机构创建，旨在通过专家对电影中的物化程度和概念进行密集标注，以分析视觉、语音和音频中的物化现象。数据集包含20部电影，总计43小时的视频内容，被划分为6072个片段，并由两位专家进行了标注。数据集的创建基于电影研究和心理学的理论，通过构建一个涉及5个子构造和11个概念的物化词汇表，对电影中的物化现象进行了深入分析。

The MObyGaze dataset was developed by research institutions including the University of Côte d'Azur. It is designed to analyze reification phenomena across visual, speech and audio modalities via dense annotations of reification degrees and associated concepts in films conducted by domain experts. The dataset consists of 20 films with a total video duration of 43 hours, which has been segmented into 6072 segments and annotated by two experts. Grounded in theories from film studies and psychology, this dataset enables in-depth analysis of reification phenomena in films by establishing a reification vocabulary that encompasses 5 sub-constructs and 11 concepts.

提供机构：

法国蔚蓝海岸大学, 法国国家科学研究中心, I3S

创建时间：

2025-05-28

搜集汇总

数据集介绍

构建方式

MOByGaze数据集的构建基于20部电影的5,783个视频片段，由专家进行密集标注，针对角色物化（objectification）这一复杂视频解释任务。标注过程中，专家不仅提供了物化水平的标签（如Easy Negative、Hard Negative、Sure），还详细标注了导致判断的多模态解释性概念（visual、textual、audio）。通过筛选正样本中与特定模态相关的概念，构建了概念模态特定数据集（CMSDs），为模型训练提供了细粒度的监督信号。

特点

该数据集的核心特点在于其多模态解释性概念的密集标注，涵盖视觉、文本和音频三种模态的11类概念。通过CMSD设计，首次实现了模态特异性监督与视频解释任务的结合，使模型能区分物化判断的模态来源。数据分布显示视觉模态占主导地位（占概念注释的62%），而文本模态样本的稀缺性（仅8%）为研究模态不平衡下的学习提供了天然场景。

使用方法

使用MOByGaze时，可采用概念模态不可知数据集（CMAD）进行传统训练，或通过CMSD实现模态特异性监督。对于多模态模型，早期融合将不同模态的token输入共享Transformer网络，而晚期融合则独立处理各模态后融合输出。实验表明，采用CMSD训练的晚期融合模型性能提升显著（AUC-PR最高提升63%），尤其能减少模态归因错误。该数据集需配合X-CLIP（视觉）、BERT（文本）、AST（音频）等特征提取器使用，推荐使用五折交叉验证评估模型。

背景与挑战

背景概述

MOByGaze数据集由法国蔚蓝海岸大学与法国国家信息与自动化研究所的科研团队于2025年联合发布，旨在推动多模态视频理解领域的发展。该数据集聚焦于电影片段中角色物化现象的识别，包含5,783个视频片段，由专家标注了视觉、文本和音频三种模态下的11种解释性概念。作为首个融合多模态解释性标注的视频数据集，MOByGaze通过引入概念模态特定数据集（CMSDs）的创新方法，显著提升了早期融合与晚期融合模型的性能表现，为构建可解释性视频分析模型提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题层面，角色物化识别涉及复杂的跨模态语义关联，需解决视觉特征与语言语境的对齐难题；在构建过程中，密集标注多模态解释概念导致标注成本激增，且不同模态概念的不均衡分布（视觉概念占比显著高于文本和音频）加剧了数据偏差问题。此外，晚期融合模型在缺乏模态特定监督时表现显著弱于早期融合，凸显了多模态特征解耦的技术挑战。

常用场景

经典使用场景

在视频内容分析领域，MOByGaze数据集通过其独特的多模态概念标注机制，为研究视觉、文本和音频模态在复杂视频解释任务中的交互作用提供了理想平台。该数据集最经典的应用场景在于训练和评估能够识别电影角色物化现象的多模态模型，其中专家标注的概念明确指示了物化判断所依赖的具体模态，为模型提供了细粒度的监督信号。

解决学术问题

MOByGaze有效解决了多模态学习中模态归因误差这一关键学术难题，通过概念模态特定数据集(CMSD)的构建，显著提升了模型对解释性概念的模态特异性识别能力。实验证明该方法使晚期融合模型的性能提升7.25%，接近早期融合水平，为开发可自解释的视频分析模型提供了新的方法论支持，推动了可解释多模态学习在影视内容分析中的应用边界。

衍生相关工作

MOByGaze的发布催生了一系列关于多模态可解释性的创新研究，包括基于概念白化的视频表征学习框架、跨模态注意力解释机制等。特别值得注意的是，该数据集启发了MM-AU等后续工作对广告视频社会信息检测任务的重新设计，促使更多研究者采用模态特定的标注策略来提升模型的可解释性，形成了视频理解领域的新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集