CapRL-Video-QA-20K
收藏CapRL-Video-QA-20K 数据集详情
数据集基本信息
- 许可证: CC-BY-4.0
- 数据根目录: 该数据集中的视频路径均为相对于
lmms-lab/LLaVA-Video-178K数据集的相对路径。
数据内容与格式
- 数据集文件为
CapRL-Video-QA-20K.jsonl,包含 20,000 条视频问答数据。 - 每条数据中的
"videos"字段存储视频的相对路径,示例如下: json ["0_30_s_youtube_v0_1/videos/liwei_youtube_videos/videos/youtube_video_2024/ytb_khSwLQOthHQ.mp4"]
所需视频数据来源
- 原始视频数据集: 需要从 Hugging Face 上的
lmms-lab/LLaVA-Video-178K下载。- 下载地址:https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K
- 所需子目录(仅限此 20K 子集):
0_30_s_youtube_v0_10_30_s_academic_v0_1
- 视频文件形式: 在 Hugging Face 文件树中,视频以压缩包形式分布:
0_30_s_youtube_v0_1/0_30_s_youtube_v0_1_videos_*.tar.gz0_30_s_academic_v0_1/0_30_s_academic_v0_1_videos_*.tar.gz
- 注意: 这些文件夹中的 JSON 注释文件并非
CapRL-Video-QA-20K.jsonl所需,但完整下载文件夹也可以。
推荐目录结构
下载并解压后,建议按以下结构组织文件: text /path/to/LLaVA-Video-178K/ ├── 0_30_s_youtube_v0_1/ │ ├── 0_30_s_youtube_v0_1_videos_1.tar.gz │ ├── ... │ └── videos/ │ └── liwei_youtube_videos/ │ └── videos/ │ └── youtube_video_2024/ │ └── ytb_*.mp4 └── 0_30_s_academic_v0_1/ ├── 0_30_s_academic_v0_1_videos_1.tar.gz ├── ... └── videos/ └── academic_source/ ├── Charades/ ├── NextQA/ ├── activitynet/ └── ...
视频路径拼接示例
在代码中,需要将视频根目录与相对路径拼接使用: python from pathlib import Path video_root = Path(/path/to/LLaVA-Video-178K) relative_path = sample[videos][0] video_path = video_root / relative_path
下载与解压示例
使用 huggingface-cli 下载并解压:
bash
huggingface-cli download lmms-lab/LLaVA-Video-178K
--repo-type dataset
--local-dir /path/to/LLaVA-Video-178K
--include 0_30_s_youtube_v0_1/* 0_30_s_academic_v0_1/*
cd /path/to/LLaVA-Video-178K
for f in 0_30_s_youtube_v0_1/videos.tar.gz; do tar -xzf "$f" -C 0_30_s_youtube_v0_1; done
for f in 0_30_s_academic_v0_1/videos.tar.gz; do tar -xzf "$f" -C 0_30_s_academic_v0_1; done
- 如果下载器将文件放在不同位置,请确保解压后的
videos/目录位于上述两个子文件夹下,或根据实际情况调整训练脚本中的数据集根目录。




