TextVR
收藏数据集概述
名称: TextVR: A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension
目的: 研究如何通过视觉和文本语义表示两种模态输入来检索视频。
内容: 包含42.2k句子查询对应于10.5k视频,涵盖8个场景域:Street View (indoor), Street View (outdoor), Game, Sports, Driving, Activity, TV Show, Cooking。
数据集结构
-
视频和标注文件: 包括5.4G的调整大小视频和标注文件,85G的原视频,以及2.1G的训练模型。
-
文件格式:
TextVR | └─── data | |
| └─── TextVR | └─── TextVR_train.json | └─── TextVR_test_rand.json | └─── Videos | | └─── Activaty | | └─── Cooking | | └─── ...... | | └─── Technology | |
| └─── Kwai_VideoOCR | └─── Activaty | └─── Cooking | └─── ...... | └─── Technology |
└─── ckpt └─── config.json └─── textvr.pth
数据集使用
- 环境设置: 使用
conda管理依赖,推荐使用CUDA 11.1。 - 下载与链接: 下载必要文件并链接到TextVR目录。
- 运行: 通过
train.py和test.py进行训练和推理,生成相似度矩阵sim_matrix.npy。 - 验证: 由于测试集标注已被打乱,无法离线验证模型性能,需提交
sim_matrix.npy至竞赛网站进行验证。
数据集特点
- 多模态输入: 结合视觉和文本语义信息进行视频检索。
- 大规模: 包含大量视频和句子查询,适用于深度学习模型训练。
- 场景多样: 覆盖多种日常生活和工作场景。




