M-VAD Names Dataset

github2024-03-15 更新2024-05-31 收录

下载链接：

https://github.com/aimagelab/mvad-names-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对Montreal Video Annotation Dataset（M-VAD）的新标注集合，主要关注角色的视觉外观和文本提及的关联。数据集通过半自动方法检测并标注了电影中每个视频片段的角色视觉外观，包括超过24,000个标注视频片段，涉及63,000个视觉轨迹和34,000个文本提及，均与角色身份相关联。

This dataset comprises a new annotation collection for the Montreal Video Annotation Dataset (M-VAD), focusing on the association between characters' visual appearances and textual mentions. Utilizing a semi-automatic method, the dataset detects and annotates the visual appearances of characters in each video clip from movies, encompassing over 24,000 annotated video clips, 63,000 visual tracks, and 34,000 textual mentions, all linked to character identities.

创建时间：

2018-10-26

原始信息汇总

数据集概述

名称: M-VAD Names Dataset

描述: 该数据集是对Montreal Video Annotation Dataset (M-VAD)的扩展，专注于视频中角色的命名。数据集包含超过24,000个视频片段的标注，包括63,000个视觉轨迹和34,000个文本提及，均与角色身份关联。

内容:

视觉标注: 角色视觉外观的标注，以面部边界框轨迹形式呈现。
文本提及: 角色的文本提及，与视觉轨迹关联。

数据集结构:

mvad-names.pkl └── <MOVIE> ├── characters | └── <CHARACTER> | └── DVS<CLIP-ID> -> tracks └── videos └── DVS<CLIP-ID> └── <CHARACTER> -> tracks

其中tracks是包含角色面部在形式(frame-id, x_min, y_min, x_max, y_max)中的边界框的列表。

数据集分割

分割详情:

训练集: 19,023个视频片段
验证集: 2,976个视频片段
测试集: 2,836个视频片段

分割策略: 确保同一电影的视频片段分布在训练、验证和测试集中，以便算法可以学习训练集上的角色视觉外观，并应用于验证和测试集。

数据集下载

下载链接: M-VAD Names Dataset

使用限制: 仅限于研究和教育目的，禁止商业使用。

引用信息

@article{pini2019mvad, title={{M-VAD Names: a Dataset for Video Captioning with Naming}}, author={Pini, Stefano and Cornia, Marcella and Bolelli, Federico and Baraldi, Lorenzo and Cucchiara, Rita}, journal={Multimedia Tools and Applications}, volume={78}, number={10}, pages={14007--14027}, year={2019} }

@inproceedings{pini2017towards, title={{Towards Video Captioning with Naming: a Novel Dataset and a Multi-Modal Approach}}, author={Pini, Stefano and Cornia, Marcella and Baraldi, Lorenzo and Cucchiara, Rita}, booktitle={International Conference on Image Analysis and Processing}, year={2017} }

搜集汇总

数据集介绍

构建方式

M-VAD Names数据集的构建基于蒙特利尔视频标注数据集（M-VAD），通过半自动化的方法对电影片段中角色的视觉外观进行检测与标注。具体而言，研究团队在每部电影的每个视频片段中识别并标注角色的面部边界框轨迹，并将其与角色的文本提及进行关联。该数据集涵盖了超过24,000个标注视频片段，包含63,000条视觉轨迹和34,000条文本提及，所有数据均与角色身份相关联。

特点

M-VAD Names数据集的核心特点在于其多模态标注能力，将角色的视觉外观与文本提及紧密结合。数据集不仅提供了角色面部的边界框轨迹，还通过文本提及进一步丰富了角色身份的上下文信息。此外，数据集在划分训练、验证和测试集时，确保了同一电影的视频片段分布于不同集合中，以便算法能够在训练集上学习角色的视觉特征，并在验证和测试集上进行应用。

使用方法

M-VAD Names数据集以Python字典的形式存储为pickle文件，用户可通过加载该文件访问标注数据。数据集提供了可视化工具，用户可通过命令行工具查看特定电影片段的标注结果，或将可视化结果保存为文件。使用该工具时，需指定M-VAD视频片段文件夹路径和M-VAD Names文件路径。此外，数据集还提供了官方划分的训练、验证和测试集，用户可直接下载并使用这些划分进行模型训练与评估。

背景与挑战

背景概述

M-VAD Names数据集由Stefano Pini、Marcella Cornia、Lorenzo Baraldi和Rita Cucchiara等研究人员于2017年首次提出，并在2019年进一步扩展。该数据集基于蒙特利尔视频标注数据集（M-VAD），旨在解决视频字幕生成中的命名问题。通过半自动方法，研究人员对电影片段中角色的视觉外观进行了标注，包括面部边界框的轨迹及其与文本提及的关联。该数据集包含超过24,000个标注视频片段，涵盖63,000个视觉轨迹和34,000个文本提及，为视频字幕生成领域提供了重要的多模态数据支持。M-VAD Names的发布推动了视频字幕生成技术的发展，尤其在角色识别与命名方面具有显著影响力。

当前挑战

M-VAD Names数据集在构建与应用过程中面临多重挑战。首先，视频字幕生成中的命名问题本身具有复杂性，角色在不同场景中的视觉外观变化较大，且文本提及与视觉轨迹的关联性难以精确捕捉。其次，数据集的构建依赖于半自动标注方法，尽管提高了效率，但在角色识别与轨迹标注的准确性上仍存在一定误差。此外，数据集的分割策略需确保同一电影的视频片段分布在训练、验证和测试集中，以便算法能够学习角色的视觉特征并应用于不同场景，这对数据集的划分与平衡提出了较高要求。最后，数据集的扩展与优化过程中，研究人员还需处理原始M-VAD字幕中的遗漏与错误，进一步增加了数据处理的复杂性。

常用场景

经典使用场景

M-VAD Names Dataset在视频字幕生成领域具有重要应用，特别是在角色命名与视觉跟踪的结合上。该数据集通过提供角色面部边界框的轨迹及其与文本提及的关联，为多模态视频字幕生成任务提供了丰富的标注信息。研究人员可以利用这些数据开发先进的算法，实现视频内容中角色的自动识别与命名，从而生成更加准确和详细的视频描述。

衍生相关工作

M-VAD Names Dataset的发布催生了一系列相关研究工作，特别是在多模态视频字幕生成和角色识别领域。基于该数据集，研究人员开发了多种先进的算法和模型，如基于深度学习的多模态融合方法和角色识别网络。这些工作不仅推动了视频字幕生成技术的发展，还为其他相关领域如视频内容分析和智能推荐系统提供了新的思路和方法。

数据集最近研究