VLM2Vec/MSR-VTT
收藏Hugging Face2025-08-03 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/VLM2Vec/MSR-VTT
下载链接
链接失效反馈官方服务:
资源简介:
MSRVTT数据集包含10K视频片段和200K字幕。该数据集遵循标准的`1K-A split`协议,是文本-视频检索领域的实际标准划分。训练集包括train_7k(7010个视频,140200个字幕)和train_9k(9000个视频,180000个字幕),测试集为test_1k(1000个视频,1000个字幕)。
MSRVTT dataset contains 10K video clips and 200K captions. The dataset follows the standard `1K-A split` protocol, which has become the de facto benchmark split in the `Text-Video Retrieval` field. The training set includes train_7k (7,010 videos, 140,200 captions) and train_9k (9,000 videos, 180,000 captions), and the test set is test_1k (1,000 videos, 1,000 captions).
提供机构:
VLM2Vec
搜集汇总
数据集介绍

背景与挑战
背景概述
VLM2Vec/MSR-VTT是一个用于文本到视频、文本检索和视频分类任务的视频描述数据集,包含10,000个视频剪辑和200,000个英语描述,采用JSON格式。它采用标准的1K-A分割协议,包括train_7k、train_9k和test_1k子集,适用于跨模态学习研究。
以上内容由遇见数据集搜集并总结生成



