HourVideo

github2024-12-03 更新2024-12-06 收录

下载链接：

https://github.com/keshik6/HourVideo

下载链接

链接失效反馈

官方服务：

资源简介：

HourVideo是一个用于长时间视频语言理解的基准数据集。它包含了一个新颖的任务套件，包括总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、物体检索）任务。HourVideo包括从Ego4D数据集中手动挑选的500个以自我为中心的视频，持续时间为20到120分钟，并具有12,976个高质量的五路多项选择题。基准测试结果显示，多模态模型（包括GPT-4和LLaVA-NeXT）在随机机会上取得了微小的改进。相比之下，人类专家显著优于最先进的长时间上下文多模态模型Gemini Pro 1.5（85.0%对37.3%），突显了多模态能力上的巨大差距。我们希望将HourVideo建立为一个基准挑战，以推动能够真正理解无尽视觉数据流的先进多模态模型的发展。

HourVideo is a benchmark dataset for long-form video language understanding. It encompasses a novel task suite, including summarization, perception (recall, tracking), visual reasoning (spatial, temporal, prediction, causal, counterfactual), and navigation (room-to-room, object retrieval) tasks. HourVideo comprises 500 egocentric videos manually selected from the Ego4D dataset, with durations ranging from 20 to 120 minutes, and 12,976 high-quality five-way multiple-choice questions. Benchmark results show that multimodal models (including GPT-4 and LLaVA-NeXT) achieve only marginal improvements over random chance. By contrast, human experts significantly outperform the state-of-the-art long-form context multimodal model Gemini Pro 1.5 (85.0% vs 37.3%), highlighting the substantial gap in multimodal capabilities. We aim to establish HourVideo as a benchmark challenge to advance the development of advanced multimodal models that can truly comprehend endless visual data streams.

创建时间：

2024-11-28

原始信息汇总

HourVideo: 1-Hour Video-Language Understanding

概述

HourVideo 是一个用于长时间视频语言理解的数据集，包含 500 个从 Ego4D 数据集中手动筛选的以自我为中心的视频，时长从 20 分钟到 120 分钟不等。数据集包含 12,976 个高质量的五选一多选题，涵盖总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、物体检索）任务。

数据集组成

视频数量: 500 个
视频时长: 20 分钟到 120 分钟
问题数量: 12,976 个五选一多选题

任务类型

总结
感知
- 回忆
- 跟踪
视觉推理
- 空间
- 时间
- 预测
- 因果
- 反事实
导航
- 房间到房间
- 物体检索

基准结果

GPT-4: 平均得分 19.6%
LLaVA-34B-DPO: 平均得分 22.3%
Gemini 1.5 Pro: 平均得分 37.3%

数据集下载

开发集: 包含 50 个视频，1182 个多选题，时长 39.3 小时。下载地址：HourVideo 开发集

联系信息

Keshigeyan Chandrasegaran: keshik@stanford.edu
Agrim Gupta: agrim@stanford.edu
Lea M. Hadzic: lea27@stanford.edu
Manling Li: manlingl@stanford.edu

引用

bibtex @inproceedings{chandrasegaran2024hourvideo, title={HourVideo: 1-Hour Video-Language Understanding}, author={Chandrasegaran, Keshigeyan and Gupta, Agrim and Hadzic, Lea M. and Kota, Taran and He, Jimming and Eyzaguirre, Cristobal and Durante, Zane and Li, Manling and Wu, Jiajun and Li, Fei-Fei}, booktitle = {Advances in Neural Information Processing Systems}, year={2024}, volume = {37}, }

搜集汇总

数据集介绍

构建方式

HourVideo数据集的构建基于Ego4D数据集，精心挑选了500个以自我为中心的视频，时长从20分钟到120分钟不等。这些视频经过手动筛选，确保其质量和多样性。数据集包含了12,976个高质量的五选一多选题，涵盖了视频摘要、感知（如回忆、追踪）、视觉推理（如空间、时间、预测、因果、反事实）以及导航（如房间到房间、物体检索）等多个任务领域。通过这种多任务的设计，HourVideo旨在全面评估模型在长时间视频理解中的能力。

使用方法

使用HourVideo数据集进行模型评估时，用户首先需要克隆GitHub仓库并设置相应的Python环境。接着，通过下载HourVideo基准数据集，用户可以使用提供的Jupyter笔记本进行GPT-4和Gemini 1.5 Pro模型的基准测试。这些笔记本提供了详细的步骤，指导用户如何使用单个视频进行模型性能的评估。值得注意的是，由于这些实验的成本较高，用户需谨慎监控API使用情况。通过这种方式，HourVideo数据集为研究人员提供了一个强大的工具，用于开发和评估能够真正理解长时间视频内容的高级多模态模型。

背景与挑战

背景概述

HourVideo数据集由斯坦福大学的一组研究人员于2024年创建，旨在推动视频与语言理解领域的发展。该数据集包含500个精心挑选的自中心视频，时长从20分钟到120分钟不等，涵盖了从摘要生成到视觉推理等多个任务。HourVideo的核心研究问题是如何使多模态模型能够有效处理长时间的视频数据，从而实现更深层次的理解。该数据集的发布不仅为研究者提供了一个新的基准，还揭示了当前多模态模型在处理长时间视频数据时的局限性，从而激发了该领域进一步的研究和创新。

当前挑战

HourVideo数据集在构建过程中面临了多个挑战。首先，长时间视频数据的处理需要高效的算法和强大的计算资源，以确保数据的质量和一致性。其次，多模态模型的性能在处理长时间视频时显著下降，尤其是在摘要生成、视觉推理和导航任务中。此外，数据集的多样性和复杂性也增加了模型训练和评估的难度。这些挑战不仅反映了当前技术的局限，也为未来的研究提供了明确的方向，即开发能够真正理解和处理长时间视频数据的高级多模态模型。

常用场景

经典使用场景

HourVideo数据集的经典使用场景主要集中在视频与语言理解的多模态任务上。该数据集通过提供长达一小时的视频内容，涵盖了从摘要生成、感知任务（如回忆、追踪）、视觉推理（包括空间、时间、预测、因果和反事实推理）到导航任务（如房间到房间的导航、物体检索）等多个复杂任务。这些任务的设计旨在全面评估和提升多模态模型在处理长时间视频数据时的理解和推理能力。

解决学术问题

HourVideo数据集解决了当前多模态模型在处理长时间视频数据时面临的重大挑战。通过提供500个精心挑选的长时间视频和12,976个高质量的多选题，该数据集显著推动了视频与语言理解的研究进展。它不仅揭示了现有模型在长时间视频理解上的局限性，还为开发更先进的多模态模型提供了基准，从而填补了学术研究中的重要空白。

实际应用

在实际应用中，HourVideo数据集的应用场景广泛，包括但不限于智能监控系统、自动驾驶、虚拟现实和增强现实等领域。例如，在智能监控系统中，该数据集可以用于训练模型识别和预测长时间视频中的关键事件，从而提高监控系统的效率和准确性。此外，在自动驾驶领域，该数据集可以用于提升车辆对复杂交通环境的理解和应对能力。

数据集最近研究