M-VAD Names Dataset
收藏数据集概述
名称: M-VAD Names Dataset
描述: 该数据集是对Montreal Video Annotation Dataset (M-VAD)的扩展,专注于视频中角色的命名。数据集包含超过24,000个视频片段的标注,包括63,000个视觉轨迹和34,000个文本提及,均与角色身份关联。
内容:
- 视觉标注: 角色视觉外观的标注,以面部边界框轨迹形式呈现。
- 文本提及: 角色的文本提及,与视觉轨迹关联。
数据集结构:
mvad-names.pkl └── <MOVIE> ├── characters | └── <CHARACTER> | └── DVS<CLIP-ID> -> tracks └── videos └── DVS<CLIP-ID> └── <CHARACTER> -> tracks
其中tracks是包含角色面部在形式(frame-id, x_min, y_min, x_max, y_max)中的边界框的列表。
数据集分割
分割详情:
- 训练集: 19,023个视频片段
- 验证集: 2,976个视频片段
- 测试集: 2,836个视频片段
分割策略: 确保同一电影的视频片段分布在训练、验证和测试集中,以便算法可以学习训练集上的角色视觉外观,并应用于验证和测试集。
数据集下载
下载链接: M-VAD Names Dataset
使用限制: 仅限于研究和教育目的,禁止商业使用。
引用信息
@article{pini2019mvad, title={{M-VAD Names: a Dataset for Video Captioning with Naming}}, author={Pini, Stefano and Cornia, Marcella and Bolelli, Federico and Baraldi, Lorenzo and Cucchiara, Rita}, journal={Multimedia Tools and Applications}, volume={78}, number={10}, pages={14007--14027}, year={2019} }
@inproceedings{pini2017towards, title={{Towards Video Captioning with Naming: a Novel Dataset and a Multi-Modal Approach}}, author={Pini, Stefano and Cornia, Marcella and Baraldi, Lorenzo and Cucchiara, Rita}, booktitle={International Conference on Image Analysis and Processing}, year={2017} }




