CapRL-Video-178K
收藏Hugging Face2026-05-25 更新2026-05-26 收录
下载链接:
https://huggingface.co/datasets/internlm/CapRL-Video-178K
下载链接
链接失效反馈官方服务:
资源简介:
CapRL-Video-178K.jsonl 是一个视频路径索引数据集,其核心是一个JSONL格式文件,每条记录包含一个视频文件的相对路径。该数据集本身不包含实际视频文件,而是指向底层视频数据集LLaVA-Video-178K。用户需先下载并解压 `lmms-lab/LLaVA-Video-178K` 中的原始MP4格式视频文件,才能与本数据集的路径配合使用。底层LLaVA-Video-178K数据集总计包含约178K个视频样本,根据视频时长(0-30秒、30-60秒、1-2分钟、2-3分钟)和来源(YouTube、学术来源)被组织成8个子集,各子集样本数量已在README中详细列出。该数据集的主要用途是提供结构化的视频文件路径映射,以方便在视频理解、视频描述生成等需要处理大规模视频数据的机器学习任务中定位和加载对应的视频资源。
CapRL-Video-178K.jsonl is a video path indexing dataset in JSONL format, where each entry contains the relative path of a video file. This dataset does not include the actual video files themselves, but instead points to the underlying video dataset LLaVA-Video-178K. Users must first download and decompress the original MP4-format video files from `lmms-lab/LLaVA-Video-178K` before using the paths in this dataset to locate corresponding video resources. The underlying LLaVA-Video-178K dataset contains approximately 178K video samples in total, organized into 8 subsets based on video duration (0–30 seconds, 30–60 seconds, 1–2 minutes, 2–3 minutes) and source (YouTube, academic sources). The number of samples in each subset is detailed in the accompanying README file. The main purpose of this dataset is to provide structured video file path mappings to facilitate the localization and loading of corresponding video resources in machine learning tasks that require processing large-scale video data, such as video understanding and video caption generation.
提供机构:
InternLM
创建时间:
2026-05-22
搜集汇总
数据集介绍

构建方式
CapRL-Video-178K数据集基于lmms-lab/LLaVA-Video-178K构建,通过整合来自YouTube与学术来源的视频片段,并依据时长划分为八个子文件夹(如0_30_s_youtube_v0_1、2_3_m_academic_v0_1等),涵盖从30秒至3分钟不等的视频内容。每个样本以JSONL格式存储,其中'video'字段记录视频相对于数据集根目录的路径。用户需从Hugging Face下载对应的tar.gz压缩包并解压至指定目录布局,最终形成完整的视频-元数据映射结构。
特点
该数据集的核心特点在于其多源、多时长的视频组成,包含超过17.8万条样本,横跨YouTube开放视频与学术场景资源,为视频理解任务提供了丰富的视觉多样性。时长分层设计(如0-30秒、1-2分钟等)使得模型能够适应不同时间跨度的语义建模需求。此外,数据集的路径设置高度模块化,视频文件与注释文件分离,便于研究者灵活扩展或替换视觉数据源,而无需重构整体数据索引。
使用方法
使用CapRL-Video-178K时,需首先通过huggingface-cli工具下载LLaVA-Video-178K数据集至本地,并按照示例脚本将各子文件夹内的tar.gz归档文件逐一解压至对应目录。随后,在代码中通过Path对象将数据集根路径与JSONL中的'video'路径拼接,即可加载视频文件。该数据集可直接用于视频字幕生成、视频理解等任务的训练与评估,用户亦可根据需要调整目录结构或编写自定义加载逻辑以适应不同框架。
背景与挑战
背景概述
CapRL-Video-178K数据集由lmms-lab团队于近期创建,旨在为视频理解与描述任务提供大规模、多样化的训练资源。该数据集包含约178,000个视频片段,时长从0至3分钟不等,涵盖学术来源(如ActivityNet)与YouTube平台内容,体现了真实世界场景的丰富性与复杂性。其核心研究问题聚焦于如何利用强化学习范式增强视频描述生成模型对多模态信息的对齐能力。作为LLaVA-Video-178K的衍生版本,CapRL-Video-178K在视频语言预训练领域具有重要影响力,为视频字幕、时序定位等下游任务提供了高质量的数据支撑。
当前挑战
该数据集面临的首要挑战在于领域问题:视频描述生成要求模型同时捕获时空动态语义与细粒度视觉细节,而现有方法常受限于多模态对齐不足及语义歧义。构建过程中,主要挑战包括:视频来源碎片化(涉及学术与YouTube素材),需统一处理格式与版权问题;视频时长跨度大(从0-30秒至2-3分钟),需精细分割以确保内容完整性;数据规模庞大(17.8万样本),依赖高效存储与加载方案(如分卷压缩tar.gz归档)。此外,确保标注质量与跨场景泛化能力亦是难点所在。
常用场景
经典使用场景
CapRL-Video-178K数据集在大规模视频理解与多模态对齐研究中占据核心地位。它脱胎于LLaVA-Video-178K,通过精细的时长分层(从30秒以内到3分钟)和来源划分(学术与YouTube),为视频与语言联合建模提供了高质量的训练素材。研究者常利用此数据集进行视频指令微调、时序动作定位以及视频问答任务,其丰富的视频长度和内容多样性确保了模型在短时与长时视频上的泛化能力,成为多模态大模型由图像理解拓展至视频理解的关键基石。
实际应用
在实际应用中,CapRL-Video-178K为智能视频分析系统注入新动力。例如,在短视频平台的内容审核与自动摘要生成中,基于此数据集训练的模型能精准识别违规画面或提取关键情节。教育领域内,它辅助开发了基于视频的解惑系统,帮助学生理解实验流程或历史事件。此外,在安防监控场景下,模型可实时解析长时长视频流中的异常行为,显著提升预警系统的时效性与准确性。
衍生相关工作
基于CapRL-Video-178K,涌现了一系列突破性工作。LLaVA-Video模型率先利用此数据进行视频指令微调,展示了多模态大模型在视频问答任务中的潜力。后续工作如Video-ChatGPT和Video-LLaVA进一步优化了时序特征融合策略,并以此数据集作为基准评估视频对话系统的性能。这些衍生研究不仅验证了数据集的价值,还催生了针对长视频的高效注意力机制与零样本视频理解框架,持续推动视频多模态领域的发展。
以上内容由遇见数据集搜集并总结生成



