five

checkpoint

收藏
Hugging Face2026-04-16 更新2026-04-17 收录
下载链接:
https://huggingface.co/datasets/YYF111/checkpoint
下载链接
链接失效反馈
官方服务:
资源简介:
LLaVA-Video-178K 是一个用于训练 LLaVA-Video 模型的数据集,包含 178,510 个标注条目,960,792 个开放式问答(QA)项目和 196,198 个多项选择 QA 项目。数据集主要用于学术研究和教育目的,语言为英语和中文,采用 Apache License 2.0 许可。数据来源包括新标注的 LLaVA-Video-178K 数据、NeXT-QA、ActivityNetQA、PerceptionTest 和 LLaVA-Hound。数据集还提供了用于生成标题和 QA 数据的标注流程目录。
创建时间:
2026-04-15
原始信息汇总

数据集概述:LLaVA-Video-178K

数据集基本信息

  • 数据集名称:LLaVA-Video-178K
  • 维护者:Yuanhan Zhang, Jinming Wu, Wei Li
  • 语言:英语、中文
  • 许可证:Apache License 2.0
  • 主要用途:用于训练LLaVA-Video模型。仅允许用于学术研究和教育目的。
  • 项目页面:https://llava-vl.github.io/blog/2024-09-30-llava-video/
  • 论文:https://arxiv.org/abs/2410.02713

数据规模与构成

本数据集包含多个配置(config),每个配置对应不同的视频时长和来源,并包含不同类型的数据分割。

核心数据集:LLaVA-Video-178K

  • 数据量:包含178,510条描述(caption)条目、960,792条开放式问答(open-ended QA)条目和196,198条多项选择问答(multiple-choice QA)条目。
  • 来源:为本项目新标注的数据。
  • 存放位置:位于本仓库的LLaVA-Video-178K/XXX_academic_v0_1LLaVA-Video-178K/XXX_youtube_v0_1目录中。

整合的外部数据集

为复现LLaVA-Video模型,本仓库还整合了以下外部数据集:

  1. NeXT-QA
    • 数据量:17,090条开放式问答和17,024条多项选择问答。
    • 存放位置LLaVA-Video-178K/XXX_nextqa
  2. ActivityNetQA
    • 数据量:23,530条开放式问答。
    • 存放位置LLaVA-Video-178K/XXX_activitynetqa
  3. PerceptionTest
    • 数据量:1,803条开放式问答。
    • 存放位置LLaVA-Video-178K/XXX_perceptiontest
  4. LLaVA-Hound
    • 数据量:240,000条开放式问答和15,000条描述条目。
    • 视频数据地址:https://huggingface.co/datasets/ShareGPTVideo/train_video_and_instruction/tree/main/train_300k
    • 标注数据位置LLaVA-Video-178K/llava_hound
    • 加载函数:https://github.com/LLaVA-VL/LLaVA-NeXT/blob/7125e3654d88063cb467ed242db76f1e2b184d4c/llava/train/train.py#L1162

数据集配置与结构

数据集根据视频时长和来源分为多个配置,每个配置包含一种或多种数据分割(split)。

配置列表

  1. 0_30_s_academic_v0_1
    • 包含分割:caption, open_ended, multi_choice
  2. 0_30_s_youtube_v0_1
    • 包含分割:caption, open_ended, multi_choice
  3. 0_30_s_activitynet
    • 包含分割:open_ended
  4. 0_30_s_perceptiontest
    • 包含分割:multi_choice
  5. 0_30_s_nextqa
    • 包含分割:open_ended, multi_choice
  6. 30_60_s_academic_v0_1
    • 包含分割:caption, open_ended, multi_choice
  7. 30_60_s_youtube_v0_1
    • 包含分割:caption, open_ended, multi_choice
  8. 30_60_s_activitynet
    • 包含分割:open_ended
  9. 30_60_s_perceptiontest
    • 包含分割:multi_choice
  10. 30_60_s_nextqa
    • 包含分割:open_ended, multi_choice
  11. 1_2_m_youtube_v0_1
    • 包含分割:caption, open_ended, multi_choice
  12. 1_2_m_academic_v0_1
    • 包含分割:caption, open_ended, multi_choice
  13. 1_2_m_activitynet
    • 包含分割:open_ended
  14. 1_2_m_nextqa
    • 包含分割:open_ended, multi_choice
  15. 2_3_m_youtube_v0_1
    • 包含分割:caption, open_ended, multi_choice
  16. 2_3_m_academic_v0_1
    • 包含分割:caption, open_ended, multi_choice
  17. 2_3_m_activitynet
    • 包含分割:open_ended
  18. 2_3_m_nextqa
    • 包含分割:open_ended, multi_choice
  19. llava_hound
    • 包含分割:open_ended
    • 文件路径:llava_hound/sharegptvideo_qa_255k_processed.json

数据分割类型

  • caption:视频描述。
  • open_ended:开放式问答。
  • multi_choice:多项选择问答。

标注流程与工具

提供了用于生成描述和问答数据的提示词目录:

  • 描述生成LLaVA-Video-178K/gpt4o_caption_prompt
  • 问答生成LLaVA-Video-178K/gpt4o_qa_prompt

子集使用说明

  • LLaVA-OneVision模型使用子集:包含0_30_s_academic_v0_1配置中的描述和开放式问答,以及LLaVA-Hound中的240,000条开放式问答和15,000条描述条目。
    • 具体文件:
      • https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K/blob/main/0_30_s_academic_v0_1/0_30_s_academic_v0_1_cap_processed.json
      • https://huggingface.co/datasets/lmms-lab/LLaVA-Video-178K/blob/main/0_30_s_academic_v0_1/0_30_s_academic_v0_1_cap_processed.json

引用信息

bibtex @misc{zhang2024videoinstructiontuningsynthetic, title={Video Instruction Tuning With Synthetic Data}, author={Yuanhan Zhang and Jinming Wu and Wei Li and Bo Li and Zejun Ma and Ziwei Liu and Chunyuan Li}, year={2024}, eprint={2410.02713}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.02713}, }

联系人

搜集汇总
数据集介绍
main_image_url
构建方式
在视频理解与多模态学习领域,数据集的构建质量直接关系到模型性能的上限。LLaVA-Video-178K数据集通过整合多个权威视频问答来源,并引入大规模合成标注数据构建而成。其核心部分LLaVA-Video-178K包含全新标注的17.8万条视频描述、96万条开放式问答及19.6万条多项选择问答,这些数据通过精心设计的GPT-4提示工程流程生成。同时融合了NeXT-QA、ActivityNetQA等现有基准数据集,形成了覆盖学术讲座、网络视频等多场景的层次化数据体系。
使用方法
对于希望复现或拓展视频理解模型的研究者,该数据集提供了清晰的使用路径。通过HuggingFace平台可直接加载不同配置的数据子集,每个配置对应特定的视频时长和来源组合。实际使用时需根据研究目标选择相应配置,例如研究短视频理解可加载0_30_s系列配置,探索长视频推理则选用1_2_m系列配置。数据集已预分割为训练所需的标准化格式,支持直接用于LLaVA-Video等模型的指令微调过程。需要注意的是,使用GPT-4生成的数据部分应遵守相应的使用政策,所有数据仅限学术研究目的。
背景与挑战
背景概述
在视频理解与多模态人工智能迅猛发展的背景下,LLaVA-Video-178K数据集应运而生,由Yuanhan Zhang、Jinming Wu和Wei Li等研究人员于2024年精心构建。该数据集旨在应对视频指令调优的核心研究问题,通过整合海量的视频-语言对,为训练先进的视频理解模型提供关键支撑。其核心贡献在于新标注了超过17.8万条视频描述、96万条开放式问答及19.6万条多项选择问答,并融合了NeXT-QA、ActivityNetQA等多个权威视频问答基准,显著推动了视频语言模型在复杂时空推理与开放域对话能力方面的研究进程,对多模态人工智能领域产生了深远影响。
当前挑战
该数据集致力于解决视频指令调优领域的核心挑战,即如何让模型精准理解视频的动态视觉内容并生成连贯、准确的文本回应。这一任务面临视频时序信息复杂、多模态语义对齐困难以及开放域问题泛化能力不足等固有难题。在构建过程中,研究团队亦需应对大规模高质量数据标注的艰巨性,涉及从学术与网络平台采集多样化视频源,并利用如GPT-4等先进模型进行自动化标注,同时确保生成数据的可靠性、多样性以及与现有基准数据集的有效整合,这些都对数据集的规模、质量与生态构建提出了严峻考验。
常用场景
经典使用场景
在视频理解与多模态人工智能领域,LLaVA-Video-178K数据集为视频指令调优提供了关键资源。该数据集通过整合海量的视频描述、开放式问答与多项选择题,典型应用于训练能够理解视频内容并生成自然语言响应的先进模型。研究人员利用其丰富的标注数据,系统评估模型在视频场景中的语义理解、时序推理与跨模态对齐能力,为构建通用视频智能体奠定了坚实基础。
解决学术问题
该数据集有效应对了视频语言理解研究中数据稀缺与标注成本高昂的挑战。通过合成大规模、高质量的指令数据,它解决了模型在复杂视频场景中泛化能力不足的问题,促进了视频问答、内容描述和时序推理等核心任务的发展。其多源数据融合策略为探索视频与语言的对齐机制提供了实证基础,显著推动了多模态学习范式的演进。
实际应用
在实际应用层面,LLaVA-Video-178K支撑着智能视频分析系统的开发,如自动化视频摘要、交互式教育辅助和内容审核工具。基于该数据集训练的模型能够理解用户对视频的复杂查询,提供精准的内容描述与答案,从而增强视频平台的用户体验与可访问性。其在安防监控、媒体制作和在线学习等场景中展现出广泛的应用潜力。
数据集最近研究
最新研究方向
在视频理解与多模态人工智能领域,LLaVA-Video-178K数据集正成为推动模型从静态图像处理向动态时序分析演进的关键资源。该数据集整合了海量视频标注数据,涵盖描述生成、开放式问答与多项选择等多种任务,其前沿研究聚焦于利用合成数据增强视频指令微调,以解决高质量视频标注稀缺的瓶颈。随着多模态大模型如LLaVA-Video和LLaVA-OneVision的兴起,该数据集支持模型在复杂场景中实现时空推理与语义理解,相关热点包括基于GPT-4等生成式人工智能的自动化标注流程探索,以及跨学术与网络视频源的长短视频适配性研究。这些进展不仅提升了模型在视频问答、内容摘要等下游任务的性能,也为构建通用视频智能系统奠定了数据基础,具有显著的学术与工程意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作