Charades-AudioMatter
收藏数据集概述
基本信息
- 数据集名称: IMG (Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval)
- 相关论文: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
- 任务类型: 视频时刻检索 (Video Moment Retrieval)
数据集内容
- 包含数据集:
- Charades-STA
- ActivityNet Captions
数据特征
- 文本特征:
- GloVe-840B-300d 文本嵌入
- 视觉特征:
- I3D
- CLIP+SF (SlowFast)
- InternVideo2
- 音频特征:
- Charades-STA: PANNs
- ActivityNet Captions: VGGish
数据文件结构
|--data | |--dataset | |--activitynet | | |--train_qid.json | | |--val_1_qid.json | | |--val_2_qid.json | |--charades | | |--charades_sta_test_qid.txt | | |--charades_sta_train_qid.txt | | |--charades.json | | |--charades_audiomatter_qid.txt | | |--charades_sta_train_tvr_format.jsonl | | |--charades_sta_test_tvr_format.jsonl | | |--charades_audiomatter_test_tvr_format.jsonl | |--features | |--activitynet | | |--audio | | | |--VGGish.pickle | | |--i3d_video | | | |--feature_shapes.json | | | |--v___c8enCfzqw.npy | | | |--...(.npy) | |--charades | | |--audio | | | |--0A8CF.npy | | | |--...(.npy) | | |--i3d_video | | | |--feature_shapes.json | | | |--0A8CF.npy | | | |--...(.npy) | | |--clip_features | | | |--visual_features | | | | |--0A8CF.npy | | | | |--...(.npy) | | | |--slowfast_features | | | | |--0A8CF.npz | | | | |--...(.npz) | | | |--text_features | | | | |--qid_0.npy | | | | |--...(.npy) | | |--iv2_features | | | |--visual_features_6b | | | | |--0A8CF.pt | | | | |--...(.pt) | | | |--llama2_txt | | | | |--qid0.pt | | | | |--...(.pt)
数据下载
- Charades-STA特征和ActivityNet-Caption的音频特征及json文件: Google Drive
- ActivityNet-Captions的I3D特征和GloVe嵌入: MEGA
使用说明
-
训练: bash python main.py --task <charades|activitynet|charadesAM> --mode train --gpu_idx <GPU INDEX>
-
推理: bash python main.py --task <charades|activitynet|charadesAM> --mode test --gpu_idx <GPU INDEX>
致谢

- 1Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval浙江大学, 北京大学, 浙江工商大学, 上海人工智能实验室, 中国科学技术大学 · 2025年



