CMD-AM

Name: CMD-AM
Creator: 视觉几何组，牛津大学工程科学系，英国
Published: 2025-09-16 01:59:51
License: 暂无描述

arXiv2025-09-16 更新2025-11-21 收录

下载链接：

https://drive.google.com/drive/folders/1Jb3N1fMAAA8cRxrAFUoAWqFWdwtTuUcE

下载链接

链接失效反馈

官方服务：

资源简介：

CMD-AM数据集是75部动画电影的集合，带有全面注释，包括角色边界框、真实的音频描述和句子级别的说话人分割标签。该数据集旨在支持研究动画电影中的角色识别和跟踪，并解决现有识别系统在处理动画电影方面的挑战。数据集的创建过程涉及自动构建音频-视觉角色库，包括角色外观库和角色语音库。数据集的应用领域包括为视觉障碍观众生成音频描述和为听力障碍观众生成角色感知字幕，从而显著提高动画内容的可访问性和叙事理解。

提供机构：

视觉几何组，牛津大学工程科学系，英国

创建时间：

2025-09-16

搜集汇总

数据集介绍

构建方式

在动画角色识别领域，CMD-AM数据集的构建采用了多模态融合策略，通过自动化流程从在线资源中收集视觉与音频样本。具体而言，研究团队利用IMDb和Fandom等平台获取角色名称及档案图像，结合开放词汇检测模型OWLv2与分割模型SAM2提取角色区域特征。针对动画角色外观的长尾分布特性，采用基于DINOv2的特征匹配与对比学习微调机制，有效提升了跨模态样本的检索精度。同时构建角色语音库，通过说话人日志分析技术从访谈视频和影片片段中提取声纹特征，形成完整的视听角色档案体系。

特点

该数据集的核心特征体现在其多模态标注体系与领域适应性设计。涵盖75部动画电影的565个视频片段，提供24.5小时时长的音频描述文本、12.7万帧角色边界框标注及1336个语句级说话人标签。特别针对动画角色形态多变的特性，采用全身边界框标注方案突破传统人脸检测的局限。数据集构建中注重真实场景的复杂性，包含重叠对话、歌唱等特殊语音片段，为动画内容理解研究提供了具有挑战性的评估基准。

使用方法

在应用层面，该数据集支持基于角色中心的动画内容解析任务。研究者可借助构建的视听角色库实现跨模态角色识别，通过轨迹引导区域提案与视觉增强说话人识别技术提升识别鲁棒性。下游任务部署时，可将识别结果融入音频描述生成框架，通过视觉语言模型生成包含角色指代的场景描述；在角色感知字幕生成中，结合自动语音识别与说话人日志技术实现对话流的结构化解析。数据集提供的标准化评估指标支持模型在CRITIC、CIDEr等维度进行量化验证。

背景与挑战

背景概述

CMD-AM数据集由牛津大学视觉几何组于2025年推出，聚焦于动画电影中角色中心理解的核心研究问题。该数据集涵盖75部动画电影，包含角色边界框、音频描述和说话人标注等多模态标注，旨在解决传统人脸识别方法在动画角色多样性上的局限性。通过构建视听角色库，该数据集推动了角色识别技术在无障碍应用领域的发展，显著提升了动画内容对视觉和听觉障碍群体的可访问性。

当前挑战

在动画角色识别领域，CMD-AM需应对角色外观长尾分布的挑战，如人类形态与抽象设计的巨大差异导致传统识别方法失效。构建过程中面临多模态数据对齐的复杂性，包括从网络资源自动提取角色视觉样本与语音片段时需克服背景噪声干扰，以及动画角色语音与真实演员声线的域差异问题。

常用场景

经典使用场景

在动画电影分析领域，CMD-AM数据集通过构建视听角色库，为多模态角色识别提供了标准化测试平台。该数据集支撑的经典应用包括基于轨迹引导区域提议的视觉角色追踪，以及融合声纹特征与唇部同步分析的说话人识别，显著提升了动画角色在长尾分布下的识别鲁棒性。

衍生相关工作

基于该数据集衍生的经典研究包括改进版AutoAD-Zero音频描述框架与视觉增强说话人分离系统。后续工作进一步扩展了动画角色聚类算法CAST，并推动了LWTNet等视听同步模型在动画域的适配，形成了以角色为中心的动画理解研究体系。

数据集最近研究