CapRL-Video-QA-20K

Name: CapRL-Video-QA-20K
Creator: InternLM
Published: 2026-05-22 21:29:20
License: 暂无描述

Hugging Face2026-05-22 更新2026-05-23 收录

下载链接：

https://huggingface.co/datasets/internlm/CapRL-Video-QA-20K

下载链接

链接失效反馈

官方服务：

资源简介：

CapRL-Video-QA-20K.jsonl是一个用于视频问答（Video QA）任务的数据集，包含约20,000个样本。该数据集以JSONL格式组织，每个样本提供视频文件的相对路径，这些视频来源于HuggingFace数据集lmms-lab/LLaVA-Video-178K的两个子集：YouTube视频（来自0_30_s_youtube_v0_1子目录）和学术视频（来自0_30_s_academic_v0_1子目录，可能包含Charades、NextQA、activitynet等来源）。数据集旨在支持视频理解、问答或相关多模态任务，用户需根据README中的路径设置指南，将JSONL中的相对路径与本地视频文件根目录结合以访问实际视频内容。视频文件以MP4格式存储，需从原始数据集下载并解压特定压缩归档获取。

CapRL-Video-QA-20K.jsonl is a dataset for Video Question Answering (Video QA) tasks, containing approximately 20,000 samples. The dataset is organized in JSONL format, with each sample providing relative paths to video files. These videos are sourced from two subsets of the HuggingFace dataset lmms-lab/LLaVA-Video-178K: YouTube videos (from the 0_30_s_youtube_v0_1 subdirectory) and academic videos (from the 0_30_s_academic_v0_1 subdirectory, which may include sources like Charades, NextQA, activitynet, etc.). The dataset is designed to support video understanding, question answering, or related multimodal tasks. Users need to follow the path setup guidelines in the README to combine the relative paths in the JSONL with the local video file root directory to access the actual video content. Video files are stored in MP4 format and must be downloaded from the original dataset and extracted from specific compressed archives.

提供机构：

InternLM

创建时间：

2026-05-22

原始信息汇总

CapRL-Video-QA-20K 数据集详情

数据集基本信息

许可证: CC-BY-4.0
数据根目录: 该数据集中的视频路径均为相对于 lmms-lab/LLaVA-Video-178K 数据集的相对路径。

数据内容与格式

数据集文件为 CapRL-Video-QA-20K.jsonl，包含 20,000 条视频问答数据。
每条数据中的 "videos" 字段存储视频的相对路径，示例如下： json ["0_30_s_youtube_v0_1/videos/liwei_youtube_videos/videos/youtube_video_2024/ytb_khSwLQOthHQ.mp4"]

所需视频数据来源

原始视频数据集: 需要从 Hugging Face 上的 lmms-lab/LLaVA-Video-178K 下载。
- 下载地址：https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K
所需子目录（仅限此 20K 子集）：
- 0_30_s_youtube_v0_1
- 0_30_s_academic_v0_1
视频文件形式: 在 Hugging Face 文件树中，视频以压缩包形式分布：
- 0_30_s_youtube_v0_1/0_30_s_youtube_v0_1_videos_*.tar.gz
- 0_30_s_academic_v0_1/0_30_s_academic_v0_1_videos_*.tar.gz
注意: 这些文件夹中的 JSON 注释文件并非 CapRL-Video-QA-20K.jsonl 所需，但完整下载文件夹也可以。

视频路径拼接示例

在代码中，需要将视频根目录与相对路径拼接使用： python from pathlib import Path video_root = Path(/path/to/LLaVA-Video-178K) relative_path = sample[videos][0] video_path = video_root / relative_path

下载与解压示例

使用 huggingface-cli 下载并解压： bash huggingface-cli download lmms-lab/LLaVA-Video-178K --repo-type dataset --local-dir /path/to/LLaVA-Video-178K --include 0_30_s_youtube_v0_1/* 0_30_s_academic_v0_1/* cd /path/to/LLaVA-Video-178K for f in 0_30_s_youtube_v0_1/videos.tar.gz; do tar -xzf "$f" -C 0_30_s_youtube_v0_1; done for f in 0_30_s_academic_v0_1/videos.tar.gz; do tar -xzf "$f" -C 0_30_s_academic_v0_1; done

如果下载器将文件放在不同位置，请确保解压后的 videos/ 目录位于上述两个子文件夹下，或根据实际情况调整训练脚本中的数据集根目录。

搜集汇总

数据集介绍

构建方式

CapRL-Video-QA-20K数据集是基于LLaVA-Video-178K大规模视频语料库精心筛选出的一个包含两万条样本的子集。其构建过程聚焦于视频问答任务，通过选取LLaVA-Video-178K中两个核心子目录——0_30_s_youtube_v0_1与0_30_s_academic_v0_1，涵盖了来自YouTube平台的多样化短视频以及来自Charades、NextQA、ActivityNet等学术基准数据集的视频片段。数据以JSONL格式组织，每条记录中通过相对路径字段'videos'指向对应的视频文件，并需与基础视频根目录拼接后访问。这种设计确保了数据集的轻量化和易扩展性。

特点

该数据集的核心特点在于其高度专注的视频问答规模与多源融合特性。20K的样本量兼顾了模型训练的效率与多样性，视频来源横跨互联网开放内容与学术界标准化数据集，覆盖日常活动、学术场景等多类视觉语境。每条样本的视频时长均限制在30秒以内，便于模型高效处理短时视觉信息。数据以JSONL格式存储，字段简洁，仅包含视频路径与问答对，降低了预处理复杂度。此外，其底层视频资源依托LLaVA-Video-178K，通过分卷压缩包提供，兼顾了存储与传输的便捷性。

使用方法

使用CapRL-Video-QA-20K时，需先通过Hugging Face平台下载基础视频资源lmms-lab/LLaVA-Video-178K，并解压缩指定子目录中的.tar.gz压缩包。随后，将解压后的videos文件夹按说明放置在本地根目录下。加载数据时，可借助Python的Path库将配置的视频根路径与JSONL中各条目的视频相对路径拼接，即可获得完整视频文件路径。该数据集直接用于视频问答模型的训练与评估，支持灵活的脚本集成，用户仅需根据实际存储位置调整视频根目录变量即可快速启动实验。

背景与挑战

背景概述

CapRL-Video-QA-20K数据集诞生于多模态大语言模型与视频理解迅速发展的背景下，由lmms-lab研究团队于2024年创建，旨在解决视频问答任务中标注数据匮乏的问题。该数据集从LLaVA-Video-178K中精心挑选20,000个视频样本，涵盖YouTube视频与学术视频两大来源，聚焦于理解视频内容中的时序动态与因果推理。其核心研究问题在于如何通过强化学习范式驱动模型对视频片段的细粒度语义进行精准问答，从而推动视频理解从静态图像向动态场景的跨越。作为LLaVA系列的重要拓展，该数据集为视频多模态模型的训练与评估提供了标准化基准，对推动视频大语言模型在自动驾驶、视频监控、智能教育等实际场景的应用具有深远意义。

当前挑战

CapRL-Video-QA-20K面临的挑战首先体现在领域问题层面：视频问答需同时处理视觉时空连续性、音频语义与文本语言的多模态对齐，且视频中事件的长时序依赖和因果逻辑推理远超静态图像任务。在数据集构建过程中，主要挑战包括：从海量源数据中精准筛选高信息密度的20,000个视频片段，确保样本覆盖不同场景、时长与动作类别；视频数据压缩包的分片存储与跨子目录解压导致文件管理系统复杂，需设计鲁棒路径解析机制以适配不同训练环境；此外，视频来源的异构性（如YouTube非结构化内容与学术标准化数据集）要求架构统一的标注格式，以降低数据加载时的预处理开销。

常用场景

经典使用场景

在多模态智能与视频理解的前沿探索中，视频问答任务要求模型不仅具备视觉感知能力，更要实现跨模态的时序推理与语义对齐。CapRL-Video-QA-20K为此类研究提供了精炼而高质量的训练与评测基准，涵盖YouTube开放域视频与学术场景视频，支持模型在复杂动态事件中精准定位关键片段并回答自然语言问题。其经典使用方式包括作为视频大语言模型的指令微调数据，或作为强化学习奖励建模的标注资源，推动模型从浅层感知向深层因果推理的跃迁。

解决学术问题

长久以来，视频问答领域受困于数据规模与标注质量的矛盾——大规模数据往往噪声充斥，小规模精品集又难以支撑模型泛化。该数据集通过精选LLaVA-Video-178K中的20K高质量问答对，有效缓解了视频长尾分布与时空定位模糊两大痛点。它不仅为评估模型在开放域视频中的动态语义理解能力提供了标准化测试平台，更促使学界重新审视视频指令数据的多样性、时序粒度与推理深度之间的平衡关系，对多模态基础模型的可信评估范式产生了深远影响。

衍生相关工作

该数据集的诞生催生了一系列围绕视频指令微调与奖励信号建模的创新工作。研究者基于其结构化问答模式，开发了视频导向的强化学习策略优化框架，将问答准确率作为奖励信号反哺视频编码器的表征学习。同时，随数据集开源的工具链简化了多源视频数据的管理与对齐流程，加速了后续如Video-LLaVA、VideoChat等视频对话系统在细粒度时序任务上的迭代。这些衍生工作共同推动了视频理解领域从静态描述向动态交互的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集