checkpoint

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/YYF111/checkpoint

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-Video-178K 是一个用于训练 LLaVA-Video 模型的数据集，包含 178,510 个标注条目，960,792 个开放式问答（QA）项目和 196,198 个多项选择 QA 项目。数据集主要用于学术研究和教育目的，语言为英语和中文，采用 Apache License 2.0 许可。数据来源包括新标注的 LLaVA-Video-178K 数据、NeXT-QA、ActivityNetQA、PerceptionTest 和 LLaVA-Hound。数据集还提供了用于生成标题和 QA 数据的标注流程目录。

创建时间：

2026-04-15

原始信息汇总

数据集概述：LLaVA-Video-178K

数据集基本信息

数据集名称：LLaVA-Video-178K
维护者：Yuanhan Zhang, Jinming Wu, Wei Li
语言：英语、中文
许可证：Apache License 2.0
主要用途：用于训练LLaVA-Video模型。仅允许用于学术研究和教育目的。
项目页面：https://llava-vl.github.io/blog/2024-09-30-llava-video/
论文：https://arxiv.org/abs/2410.02713

数据规模与构成

本数据集包含多个配置（config），每个配置对应不同的视频时长和来源，并包含不同类型的数据分割。

核心数据集：LLaVA-Video-178K

数据量：包含178,510条描述（caption）条目、960,792条开放式问答（open-ended QA）条目和196,198条多项选择问答（multiple-choice QA）条目。
来源：为本项目新标注的数据。
存放位置：位于本仓库的LLaVA-Video-178K/XXX_academic_v0_1和LLaVA-Video-178K/XXX_youtube_v0_1目录中。

整合的外部数据集

为复现LLaVA-Video模型，本仓库还整合了以下外部数据集：

NeXT-QA
- 数据量：17,090条开放式问答和17,024条多项选择问答。
- 存放位置：LLaVA-Video-178K/XXX_nextqa
ActivityNetQA
- 数据量：23,530条开放式问答。
- 存放位置：LLaVA-Video-178K/XXX_activitynetqa
PerceptionTest
- 数据量：1,803条开放式问答。
- 存放位置：LLaVA-Video-178K/XXX_perceptiontest
LLaVA-Hound
- 数据量：240,000条开放式问答和15,000条描述条目。
- 视频数据地址：https://huggingface.co/datasets/ShareGPTVideo/train_video_and_instruction/tree/main/train_300k
- 标注数据位置：LLaVA-Video-178K/llava_hound
- 加载函数：https://github.com/LLaVA-VL/LLaVA-NeXT/blob/7125e3654d88063cb467ed242db76f1e2b184d4c/llava/train/train.py#L1162

数据集配置与结构

数据集根据视频时长和来源分为多个配置，每个配置包含一种或多种数据分割（split）。

配置列表

0_30_s_academic_v0_1
- 包含分割：caption, open_ended, multi_choice
0_30_s_youtube_v0_1
- 包含分割：caption, open_ended, multi_choice
0_30_s_activitynet
- 包含分割：open_ended
0_30_s_perceptiontest
- 包含分割：multi_choice
0_30_s_nextqa
- 包含分割：open_ended, multi_choice
30_60_s_academic_v0_1
- 包含分割：caption, open_ended, multi_choice
30_60_s_youtube_v0_1
- 包含分割：caption, open_ended, multi_choice
30_60_s_activitynet
- 包含分割：open_ended
30_60_s_perceptiontest
- 包含分割：multi_choice
30_60_s_nextqa
- 包含分割：open_ended, multi_choice
1_2_m_youtube_v0_1
- 包含分割：caption, open_ended, multi_choice
1_2_m_academic_v0_1
- 包含分割：caption, open_ended, multi_choice
1_2_m_activitynet
- 包含分割：open_ended
1_2_m_nextqa
- 包含分割：open_ended, multi_choice
2_3_m_youtube_v0_1
- 包含分割：caption, open_ended, multi_choice
2_3_m_academic_v0_1
- 包含分割：caption, open_ended, multi_choice
2_3_m_activitynet
- 包含分割：open_ended
2_3_m_nextqa
- 包含分割：open_ended, multi_choice
llava_hound
- 包含分割：open_ended
- 文件路径：llava_hound/sharegptvideo_qa_255k_processed.json

数据分割类型

caption：视频描述。
open_ended：开放式问答。
multi_choice：多项选择问答。

标注流程与工具

提供了用于生成描述和问答数据的提示词目录：

描述生成：LLaVA-Video-178K/gpt4o_caption_prompt
问答生成：LLaVA-Video-178K/gpt4o_qa_prompt

子集使用说明

LLaVA-OneVision模型使用子集：包含0_30_s_academic_v0_1配置中的描述和开放式问答，以及LLaVA-Hound中的240,000条开放式问答和15,000条描述条目。
- 具体文件：
  - https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K/blob/main/0_30_s_academic_v0_1/0_30_s_academic_v0_1_cap_processed.json
  - https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K/blob/main/0_30_s_academic_v0_1/0_30_s_academic_v0_1_cap_processed.json

引用信息

bibtex @misc{zhang2024videoinstructiontuningsynthetic, title={Video Instruction Tuning With Synthetic Data}, author={Yuanhan Zhang and Jinming Wu and Wei Li and Bo Li and Zejun Ma and Ziwei Liu and Chunyuan Li}, year={2024}, eprint={2410.02713}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.02713}, }

联系人

搜集汇总

数据集介绍

构建方式

在视频理解与多模态学习领域，数据集的构建质量直接关系到模型性能的上限。LLaVA-Video-178K数据集通过整合多个权威视频问答来源，并引入大规模合成标注数据构建而成。其核心部分LLaVA-Video-178K包含全新标注的17.8万条视频描述、96万条开放式问答及19.6万条多项选择问答，这些数据通过精心设计的GPT-4提示工程流程生成。同时融合了NeXT-QA、ActivityNetQA等现有基准数据集，形成了覆盖学术讲座、网络视频等多场景的层次化数据体系。

使用方法

对于希望复现或拓展视频理解模型的研究者，该数据集提供了清晰的使用路径。通过HuggingFace平台可直接加载不同配置的数据子集，每个配置对应特定的视频时长和来源组合。实际使用时需根据研究目标选择相应配置，例如研究短视频理解可加载0_30_s系列配置，探索长视频推理则选用1_2_m系列配置。数据集已预分割为训练所需的标准化格式，支持直接用于LLaVA-Video等模型的指令微调过程。需要注意的是，使用GPT-4生成的数据部分应遵守相应的使用政策，所有数据仅限学术研究目的。

背景与挑战

背景概述

在视频理解与多模态人工智能迅猛发展的背景下，LLaVA-Video-178K数据集应运而生，由Yuanhan Zhang、Jinming Wu和Wei Li等研究人员于2024年精心构建。该数据集旨在应对视频指令调优的核心研究问题，通过整合海量的视频-语言对，为训练先进的视频理解模型提供关键支撑。其核心贡献在于新标注了超过17.8万条视频描述、96万条开放式问答及19.6万条多项选择问答，并融合了NeXT-QA、ActivityNetQA等多个权威视频问答基准，显著推动了视频语言模型在复杂时空推理与开放域对话能力方面的研究进程，对多模态人工智能领域产生了深远影响。

当前挑战

该数据集致力于解决视频指令调优领域的核心挑战，即如何让模型精准理解视频的动态视觉内容并生成连贯、准确的文本回应。这一任务面临视频时序信息复杂、多模态语义对齐困难以及开放域问题泛化能力不足等固有难题。在构建过程中，研究团队亦需应对大规模高质量数据标注的艰巨性，涉及从学术与网络平台采集多样化视频源，并利用如GPT-4等先进模型进行自动化标注，同时确保生成数据的可靠性、多样性以及与现有基准数据集的有效整合，这些都对数据集的规模、质量与生态构建提出了严峻考验。

常用场景

经典使用场景

在视频理解与多模态人工智能领域，LLaVA-Video-178K数据集为视频指令调优提供了关键资源。该数据集通过整合海量的视频描述、开放式问答与多项选择题，典型应用于训练能够理解视频内容并生成自然语言响应的先进模型。研究人员利用其丰富的标注数据，系统评估模型在视频场景中的语义理解、时序推理与跨模态对齐能力，为构建通用视频智能体奠定了坚实基础。

解决学术问题

该数据集有效应对了视频语言理解研究中数据稀缺与标注成本高昂的挑战。通过合成大规模、高质量的指令数据，它解决了模型在复杂视频场景中泛化能力不足的问题，促进了视频问答、内容描述和时序推理等核心任务的发展。其多源数据融合策略为探索视频与语言的对齐机制提供了实证基础，显著推动了多模态学习范式的演进。

实际应用

在实际应用层面，LLaVA-Video-178K支撑着智能视频分析系统的开发，如自动化视频摘要、交互式教育辅助和内容审核工具。基于该数据集训练的模型能够理解用户对视频的复杂查询，提供精准的内容描述与答案，从而增强视频平台的用户体验与可访问性。其在安防监控、媒体制作和在线学习等场景中展现出广泛的应用潜力。

数据集最近研究