M-VAD Names Dataset

github2020-04-28 更新2024-05-31 收录

下载链接：

https://github.com/EfimBerson/mvad-names-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对蒙特利尔视频标注数据集（M-VAD）的新注释集合，其中包括角色的视觉外观注释，以面部边界框轨迹的形式，以及与角色文本提及的关联。数据集通过半自动方法检测并注释了每个电影视频片段中角色的视觉外观，包含超过24,000个注释视频片段，包括63,000个视觉轨迹和34,000个文本提及，均与其角色身份关联。

This dataset comprises a new annotation collection for the Montreal Video Annotation Dataset (M-VAD), which includes visual appearance annotations of characters in the form of facial bounding box trajectories, as well as associations with textual mentions of the characters. The dataset employs a semi-automatic method to detect and annotate the visual appearances of characters in each movie video clip, encompassing over 24,000 annotated video clips, including 63,000 visual trajectories and 34,000 textual mentions, all linked to their respective character identities.

创建时间：

2020-04-28

原始信息汇总

数据集概述

数据集名称： M-VAD Names Dataset

数据集描述： 该数据集包含了对Montreal Video Annotation Dataset（M-VAD）的新的注释集。数据集中的注释包括角色的视觉外观，以面部边界框轨迹的形式存在，以及与角色文本提及的关联。数据集通过半自动方法检测并注释了每个电影片段中角色的视觉外观。

数据集内容：

超过24,000个注释视频片段
包含63,000个视觉轨迹
包含34,000个文本提及
所有内容均与角色身份关联

数据集下载： 链接

数据集结构

文件格式： pickle对象，包含一个Python字典，结构如下：

mvad-names.pkl └── <MOVIE> ├── characters | └── <CHARACTER> | └── DVS<CLIP-ID> -> tracks └── videos └── DVS<CLIP-ID> └── <CHARACTER> -> tracks

其中，tracks是一个包含面部边界框的列表，格式为(frame-id, x_min, y_min, x_max, y_max)。

数据集分割

分割方式： 官方提供了训练、验证和测试集，分别包含约80%、10%和10%的视频片段。每个电影的视频片段在所有分割中都有分布，以确保算法能在训练集上学习角色的视觉外观，并在验证和测试集上应用。

分割统计：

	总数	平均每部电影
训练视频	19,023	207
验证视频	2,976	32
测试视频	2,836	31

数据集可视化

可视化工具： 提供了一个可视化工具来展示数据集的注释。用户可以通过命令行工具来可视化整个数据集或特定的视频片段，并可选择保存可视化结果。

精炼的M-VAD描述

描述更新： 除了M-VAD Names数据集，还发布了一个扩展版的M-VAD电影描述。新增了116个独特角色的注释，修复了1,253个M-VAD描述中的问题。

下载链接： 链接

搜集汇总

数据集介绍

构建方式

M-VAD Names Dataset通过半自动化方式对M-VAD视频片段中的角色视觉外观进行检测和注释，构建了包含超过24k个注释视频片段的数据集，涵盖了63k个视觉轨迹和34k个文本提及，均与角色身份相关联。

特点

该数据集的特点在于，它不仅包含了角色的视觉轨迹，还关联了文本提及信息，有助于算法在视频字幕中命名角色。数据集保持了视频片段的完整性，确保了算法可以在训练集上学习角色的视觉外观，并在验证集和测试集上进行应用。此外，官方的训练集、验证集和测试集划分，使得数据集适用于不同的模型评估和比较。

使用方法

用户可以通过下载官方发布的pickle对象格式的数据集来使用该数据集。数据集的使用包括可视化工具的安装，以及通过指定视频路径和剪辑ID来查看或保存数据集注释。此外，数据集还提供了经过修正的M-VAD电影描述，以增强数据集的可用性和准确性。

背景与挑战

背景概述

M-VAD Names Dataset是由Stefano Pini、Marcella Cornia、Lorenzo Baraldi、Federico Bolelli和Rita Cucchiara等研究人员于2017年首次提出，并在2019年进行了扩展。该数据集的创建旨在为视频字幕命名任务提供一个专门的标注集，基于Montreal Video Annotation Dataset (M-VAD)。数据集包含了超过24k个视频片段的注释，包括63k个视觉轨迹和34k个文本提及，均与角色身份相关联。该数据集的发布对于视频理解、角色识别和多模态信息处理领域的研究具有重要意义。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1)如何通过半自动化的方法高效准确地检测和注释视频中角色的视觉出现；2)保持不同视频片段中角色身份的一致性，以利于算法在训练集上学习角色外观，并在验证集和测试集上进行应用。在研究领域问题方面，M-VAD Names Dataset面临的挑战包括如何提升视频字幕中角色命名的准确性，以及如何利用多模态信息提高视频理解的质量。

常用场景

经典使用场景

M-VAD Names Dataset 旨在为视频字幕命名任务提供支持，其经典使用场景在于视频内容解析与字符识别。通过该数据集，研究人员能够基于视频帧中角色的视觉出现，以及与角色文本提及的关联，训练出能够准确识别并标注视频中出现角色的模型。

衍生相关工作

基于该数据集，衍生出了一系列相关工作，包括但不限于角色识别、视频字幕生成算法的研究与开发，以及多模态信息处理技术的探索。这些研究进一步拓展了数据集的应用范围，推动了相关领域的技术进步。

数据集最近研究