MSRVTT
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MSRVTT
下载链接
链接失效反馈官方服务:
资源简介:
我们介绍了msr-vtt (代表 “MSR视频到文本”),它是一种新的视频理解的大规模视频基准,尤其是将视频转换为文本的新兴任务。这是通过从商业视频搜索引擎收集257个流行的查询来实现的,每个查询都有118个视频。在当前版本中,msr-vtt提供10k网络视频剪辑,总共41.2小时,200K个剪辑句子对,涵盖了最全面的类别和多样化的视觉内容,并代表了句子和词汇方面的最大数据集。每个片段由1,327名AMT工作者用大约20个自然句子进行注释。与现有数据集的完整集合相比,我们对msr-vtt进行了详细分析,并总结了不同的最新视频到文本方法。我们还在此数据集上对这些方法进行了广泛的评估,表明基于混合递归神经网络的方法将单帧和运动表示与软注意力池策略相结合,在msr-vtt上产生了最佳的泛化能力。
提供机构:
OpenDataLab
创建时间:
2023-03-30



