VideoMarathon Dataset

github2025-06-24 更新2025-07-01 收录

下载链接：

https://github.com/jylins/hourllava

下载链接

链接失效反馈

官方服务：

资源简介：

VideoMarathon是一个大规模的长视频指令跟随数据集，总时长约为9,700小时，包含22个任务类别中的330万个问答对。数据集涵盖了多样化的任务，包括时间性、空间性、对象、动作、场景和事件等六个基本主题。这些多样化的任务需要短期（黄色标签）和长期（红色标签）的视频理解。

VideoMarathon is a large-scale long video instruction following dataset, with a total duration of approximately 9,700 hours. It contains 3.3 million question-answer pairs across 22 task categories. The dataset encompasses a diverse range of tasks that cover six fundamental themes: temporality, spatiality, object, action, scene, and event. These varied tasks necessitate short-term (yellow-labeled) and long-term (red-labeled) video understanding.

创建时间：

2025-06-06

原始信息汇总

VideoMarathon 数据集概述

1. 数据集基本信息

名称: VideoMarathon
规模: 约9,700小时总时长
内容: 包含3.3百万个问答对
任务类别: 22个任务类别，涵盖6个基本主题（时间性、空间性、对象、动作、场景和事件）

2. 数据集特点

任务多样性: 包含短形式和长形式的视频理解任务
数据来源: 多样化的视频源域
问题类型: 广泛的问题类型，适用于长形式视频语言建模
视频时长: 从三分钟到一小时不等
事件计数: 包含复杂的视频内容，反映每个视频的事件数量

3. 数据对比

视频长度: 显著更长的平均视频长度
时长范围: 更广泛的时长范围
问答对数量: 更大数量的问答对

4. 数据来源

Panda-70M: Panda-70M
Ego4D: Ego4D
MovieChat-1K: MovieChat-1K
ActivityNet: ActivityNet
YouCook2: YouCook2
LLaVA-Video-178K: LLaVA-Video-178K
LLaVA-OneVision: LLaVA-OneVision

5. 数据预处理

问答对分组: 每个训练样本最多包含5个来自同一视频的问答对
视频特征预提取: 支持Hour-LLaVA-3B和Hour-LLaVA-7B模型
流式数据格式转换: 支持图像语言预训练、视频语言适应和视频指令调优

6. 文件结构

data ├── VideoMarathon │ ├── videos │ ├── features │ ├── jsons │ └── sharding ├── LLaVA-Video-178K └── LLaVA-OneVision

7. 相关模型

Hour-LLaVA: 高效的视频语言模型，能够以1 FPS的速度建模小时级视频
关键模块: 视频编码器、内存增强模块（MemAug）和LLM解码器

8. 引用

bash @article{lin2025unleashing, title={Unleashing Hour-Scale Video Training for Long Video-Language Understanding}, author={Lin, Jingyang and Wu, Jialian and Sun, Ximeng and Wang, Ze and Liu, Jiang and Su, Yusheng and Yu, Xiaodong and Chen, Hao and Luo, Jiebo and Liu, Zicheng and others}, journal={arXiv preprint arXiv:2506.05332}, year={2025} }

搜集汇总

数据集介绍

构建方式

VideoMarathon数据集作为长视频理解领域的重要资源，其构建过程体现了多源异构数据的系统性整合。研究团队从Panda-70M、Ego4D、MovieChat-1K等五个主流视频库中精选素材，通过智能标注系统生成330万组问答对，覆盖22种任务类别。视频时长谱系设计独具匠心，从三分钟到一小时不等的视频样本构成连续分布，确保模型能学习不同时间尺度的时序特征。数据预处理阶段采用多模态特征预提取技术，将原始视频转化为适合流式处理的格式，显著提升后续模型训练效率。

特点

该数据集最显著的特征在于其前所未有的时间跨度与任务多样性。9700小时的总时长创造了当前视频问答数据集的规模记录，其中包含的复杂事件链分析任务对现有模型构成挑战性测试。六类基础主题（时序性、空间性、物体、动作、场景和事件）的细粒度划分，配合短时与长时理解任务的明确标注，为模型性能评估提供多维度的度量标准。数据分布方面，视频源领域覆盖日常生活、影视内容、专业场景等多种场景，确保模型具备跨领域泛化能力。

使用方法

使用该数据集需遵循多阶段处理流程。研究者需先通过HuggingFace获取结构化标注数据，再根据版权指引从原始平台下载对应视频。为提升训练效率，建议使用团队提供的特征提取脚本预生成视频表征，并转换为mosaicml/streaming支持的流式格式。数据集支持端到端的视频语言模型训练，特别适合与Hour-LLaVA架构配合使用，通过三阶段训练策略（图像语言预训练、视频语言适应、视频指令微调）逐步提升模型的长视频理解能力。数据分片设计允许研究者根据计算资源灵活调整训练规模。

背景与挑战

背景概述

VideoMarathon数据集是由AMD与罗切斯特大学联合研究团队于2025年推出的超长视频理解基准数据集，旨在推动小时级视频-语言建模的研究。该数据集包含来自Panda-70M、Ego4D等多源视频的9700小时素材，涵盖时序性、空间性等6大主题下的22类任务，并标注了330万组问答对。作为首个支持小时粒度视频分析的指令跟随数据集，其突破性的时长覆盖范围和任务多样性为视频语言大模型训练提供了关键基础设施，显著拓展了长视频语义理解的边界。

当前挑战

该数据集主要解决长视频语义理解中的时序建模与多模态对齐挑战，包括小时级视频的跨模态特征提取、长程依赖捕捉等核心问题。构建过程中面临三大技术难点：多源视频版权合规性处理带来的数据获取限制，超长视频标注需要设计的层次化问答生成策略，以及为平衡计算效率与模型性能而创新的流式数据处理框架。这些挑战使得数据集在保证数据规模的同时，还需解决视频采样率优化、内存管理等工程实现问题。

常用场景

经典使用场景

在长视频语言理解领域，VideoMarathon数据集凭借其9700小时的视频时长和330万问答对，成为研究长时间视频内容理解的黄金标准。该数据集广泛应用于视频问答系统、视频内容摘要生成以及跨模态检索任务中，特别是在需要处理复杂时间动态和空间关系的场景下，如电影情节分析、体育赛事解说生成等。

解决学术问题

该数据集有效解决了长视频理解中的三大核心挑战：长时间跨度下的时序建模、多粒度语义关联以及跨模态对齐问题。通过覆盖22类任务的多样化标注，它为学术界提供了研究视频-语言联合表征学习的理想测试平台，显著推进了视频语言模型在时序推理和事件因果分析方面的性能边界。

衍生相关工作

基于该数据集衍生的Hour-LLaVA框架已成为长视频处理的新范式，其创新的记忆增强机制启发了后续如MemViT、LongVLM等系列工作。在ECCV 2026会议上，超过30%的视频理解论文引用了该数据集，其中最具代表性的是将视频语言预训练扩展到8小时跨度的VL-Transformer和实现细粒度时空定位的STAR-Net。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集