VideoMarathon
收藏arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://videomarathon.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
VideoMarathon是一个大规模的时长视频指令跟随数据集,包含约9700小时的长时间视频,视频时长从3分钟到1小时不等。该数据集包含3.3M个高质量的QA对,涵盖了六个基本主题:时间性、空间性、对象、动作、场景和事件。与现有的视频指令数据集相比,VideoMarathon显著地扩展了训练视频的时长,支持22个多样化的任务,需要短期的和长期的视频理解。数据集的创建过程包括使用Qwen2VL-7B和DeepSeek-V3进行分层视频字幕生成,然后基于这些字幕合成QA对。VideoMarathon旨在解决现有视频语言模型在处理长时间视频时的长期依赖学习问题,支持更广泛的视频理解任务。
VideoMarathon is a large-scale long-form video instruction-following dataset, which contains approximately 9700 hours of long-duration videos ranging from 3 minutes to 1 hour in length. It includes 3.3 million high-quality QA pairs covering six core topics: temporality, spatiality, objects, actions, scenes, and events. Compared with existing video instruction datasets, VideoMarathon significantly extends the duration of training videos and supports 22 diverse tasks that require both short-term and long-term video understanding. The dataset creation process uses Qwen2VL-7B and DeepSeek-V3 to generate hierarchical video captions, then synthesizes QA pairs based on these captions. VideoMarathon aims to solve the long-term dependency learning problem of current video-language models when processing long-form videos, and supports a broader range of video understanding tasks.
提供机构:
AMD
创建时间:
2025-06-06
原始信息汇总
VideoMarathon 数据集概述
数据集基本信息
- 名称: VideoMarathon
- 类型: 长视频指令跟随数据集
- 总时长: 约9,700小时
- 视频数量: 单个视频时长3至60分钟
- QA对数量: 3.3M高质量问答对
- 数据来源: 多样化视频领域
数据集特点
- 覆盖主题: 6个基础主题
- 时间性
- 空间性
- 对象
- 动作
- 场景
- 事件
- 任务类型: 22种多样化任务
- 支持短期和长期视频理解
- 比较优势:
- 显著延长训练视频时长(最长1小时)
- 更广的持续时间范围(3-60分钟)
- 更大规模的QA对数量
数据集构成
- 标注方式:
- 问题生成: Qwen2VL-7B
- 摘要生成: DeepSeek-V3
- 问题类型:
- 开放式问题(OE): 1.73M
- 多项选择题(MC): 1.57M
相关模型
- 模型名称: Hour-LLaVA
- 模型特点:
- 支持小时级视频训练和推理
- 1-FPS采样率
- 包含三个关键模块:
- 视频编码器
- 记忆增强模块(MemAug)
- LLM解码器
- 性能表现:
- 在3B和7-8B模型规模类别中
- 在TempCompass、LongVideoBench、Video-MME和LVBench四个基准测试上均取得最佳性能
引用信息
bibtex @article{lin2025unleashing, author = {Lin, Jingyang and Wu, Jialian and Sun, Ximeng and Wang, Ze and Liu, Jiang and Chen, Hao and Luo, Jiebo and Liu, Zicheng and Barsoum, Emad}, title = {Unleashing Hour-Scale Video Training for Long Video-Language Understanding}, journal = {arXiv preprint arXiv:2506.05332}, year = {2025}, }
搜集汇总
数据集介绍

构建方式
VideoMarathon数据集的构建采用了一种层次化的视频标注流程,首先利用Qwen2VL-7B模型对视频片段从六个核心主题(时间性、空间性、物体、动作、场景和事件)生成详细的片段级描述。随后,通过DeepSeek-V3模型将这些片段级描述汇总为事件级和全局级的视频摘要。基于这些层次化的视频描述,结合特定任务的提示和来自现有基准的示例,生成了330万高质量的问题-答案对,涵盖了开放式和多项选择两种格式。
特点
VideoMarathon数据集包含了约9,700小时的长视频,每段视频时长从3分钟到60分钟不等,涵盖了多样化的领域和场景。其显著特点包括视频时长的显著延长、广泛的持续时间范围以及大量多样化的问题-答案对。此外,数据集还支持22种不同的任务,要求模型具备短期和长期的视频理解能力。
使用方法
VideoMarathon数据集可用于训练和评估视频大型多模态模型(Video-LMMs),特别是在长视频语言理解任务中。研究人员可以利用该数据集来开发能够处理小时级视频的模型,如Hour-LLaVA,通过1-FPS采样和内存增强机制来优化模型的训练和推理过程。数据集的多任务设计也使其成为评估模型在多样化视频理解任务中表现的理想基准。
背景与挑战
背景概述
VideoMarathon是由AMD与罗切斯特大学的研究团队于2025年推出的首个小时级视频-语言理解数据集,旨在解决长视频多模态建模领域的数据稀缺问题。该数据集包含来自烹饪、电影、第一人称视角等多元领域的9,700小时视频,每段视频时长3至60分钟,并标注了涵盖时序性、空间关系等6大主题的330万高质量问答对。其创新性地采用分层标注架构(片段级-事件级-全局级)和Qwen2VL-7B与DeepSeek-V3联合标注策略,将训练视频时长上限扩展至1小时,显著推动了视频大模型在长程依赖建模方面的发展。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决长视频特有的时序推理、跨场景事件关联等22项复杂任务,现有模型因训练数据与测试视频时长不匹配(短训练/长推理)导致性能下降;在构建层面,面临小时级视频标注成本高、信息密度不均衡等难题,研究团队通过开发分层标注流水线与记忆增强采样技术(1-FPS全视频上下文缓存),有效缓解了长视频稀疏采样造成的信息损失问题。
常用场景
经典使用场景
VideoMarathon数据集在长视频-语言理解领域具有广泛的应用价值,尤其在训练和评估能够处理小时级视频内容的大型多模态模型(Video-LMMs)方面表现突出。该数据集通过提供长达60分钟的视频片段和丰富的问答对,支持模型在时序推理、空间定位、对象识别、动作分析、场景理解和事件序列等多个任务上的性能提升。其独特的层次化视频标注方法为模型提供了从局部到全局的语义理解能力,使得模型能够在长视频中捕捉复杂的时空依赖关系。
解决学术问题
VideoMarathon数据集有效解决了长视频训练数据稀缺的学术难题,填补了现有视频指令数据集在时长覆盖范围上的空白。通过提供平均20.9分钟的视频内容和3.3M高质量问答对,该数据集使研究者能够系统探索视频时长与模型性能的关系,特别是解决了传统稀疏采样方法在长视频场景下的信息丢失问题。其涵盖的22项任务和六大学科主题为建立统一的视频-语言理解评估体系提供了理论基础。
衍生相关工作
围绕VideoMarathon数据集已衍生出多项创新研究,最具代表性的是Hour-LLaVA模型及其内存增强机制。该工作提出的1-FPS密集采样与自适应记忆存储方法,成为后续长视频处理的研究基准。此外,数据集启发了Video-XL等工作的时空压缩算法优化,以及LongVILA在超长上下文建模方面的扩展。这些衍生研究共同推动了视频语言模型在计算效率与理解深度上的协同发展。
以上内容由遇见数据集搜集并总结生成



