MSR-VTT
收藏Opencsg2024-03-26 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/OpenDataLab/MSR-VTT
下载链接
链接失效反馈官方服务:
资源简介:
MSR-VTT(Microsoft Research Video to Text)是一个用于开放域视频字幕的大规模数据集,由 20 个类别的 10,000 个视频片段组成,每个视频片段由 Amazon Mechanical Turks 用 20 个英文句子进行注释。所有字幕中大约有 29,000 个独特的单词。标准拆分使用 6,513 个剪辑用于训练,497 个剪辑用于验证,2,990 个剪辑用于测试。
MSR-VTT (Microsoft Research Video to Text) is a large-scale dataset for open-domain video captioning. It consists of 10,000 video clips spanning 20 categories. Each video clip is annotated with 20 English sentences by Amazon Mechanical Turks. There are approximately 29,000 unique words across all captions. The standard data split uses 6,513 clips for training, 497 for validation, and 2,990 for testing.
创建时间:
2024-03-26
搜集汇总
数据集介绍

背景与挑战
背景概述
MSR-VTT是一个大规模开放域视频字幕数据集,包含10,000个视频片段,覆盖20个类别,每个视频配有20个英文句子注释,字幕词汇量约29,000个单词。数据集提供标准拆分(6,513个训练、497个验证、2,990个测试),适用于视频理解、文本生成等多模态任务,特点是标注密集且类别多样。
以上内容由遇见数据集搜集并总结生成



