HourVideo|视频理解数据集|多模态模型数据集

github2024-12-03 更新2024-12-06 收录

视频理解

多模态模型

下载链接：

https://github.com/keshik6/HourVideo

下载链接

链接失效反馈

资源简介：

HourVideo是一个用于长时间视频语言理解的基准数据集。它包含了一个新颖的任务套件，包括总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、物体检索）任务。HourVideo包括从Ego4D数据集中手动挑选的500个以自我为中心的视频，持续时间为20到120分钟，并具有12,976个高质量的五路多项选择题。基准测试结果显示，多模态模型（包括GPT-4和LLaVA-NeXT）在随机机会上取得了微小的改进。相比之下，人类专家显著优于最先进的长时间上下文多模态模型Gemini Pro 1.5（85.0%对37.3%），突显了多模态能力上的巨大差距。我们希望将HourVideo建立为一个基准挑战，以推动能够真正理解无尽视觉数据流的先进多模态模型的发展。

创建时间：

2024-11-28

原始信息汇总

HourVideo: 1-Hour Video-Language Understanding

概述

HourVideo 是一个用于长时间视频语言理解的数据集，包含 500 个从 Ego4D 数据集中手动筛选的以自我为中心的视频，时长从 20 分钟到 120 分钟不等。数据集包含 12,976 个高质量的五选一多选题，涵盖总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、物体检索）任务。

数据集组成

视频数量: 500 个
视频时长: 20 分钟到 120 分钟
问题数量: 12,976 个五选一多选题

任务类型

总结
感知
- 回忆
- 跟踪
视觉推理
- 空间
- 时间
- 预测
- 因果
- 反事实
导航
- 房间到房间
- 物体检索

基准结果

GPT-4: 平均得分 19.6%
LLaVA-34B-DPO: 平均得分 22.3%
Gemini 1.5 Pro: 平均得分 37.3%

数据集下载

开发集: 包含 50 个视频，1182 个多选题，时长 39.3 小时。下载地址：HourVideo 开发集

联系信息

Keshigeyan Chandrasegaran: keshik@stanford.edu
Agrim Gupta: agrim@stanford.edu
Lea M. Hadzic: lea27@stanford.edu
Manling Li: manlingl@stanford.edu

引用

bibtex @inproceedings{chandrasegaran2024hourvideo, title={HourVideo: 1-Hour Video-Language Understanding}, author={Chandrasegaran, Keshigeyan and Gupta, Agrim and Hadzic, Lea M. and Kota, Taran and He, Jimming and Eyzaguirre, Cristobal and Durante, Zane and Li, Manling and Wu, Jiajun and Li, Fei-Fei}, booktitle = {Advances in Neural Information Processing Systems}, year={2024}, volume = {37}, }

AI搜集汇总

数据集介绍

构建方式

HourVideo数据集的构建基于Ego4D数据集，精心挑选了500个以自我为中心的视频，时长从20分钟到120分钟不等。这些视频经过手动筛选，确保其质量和多样性。数据集包含了12,976个高质量的五选一多选题，涵盖了视频摘要、感知（如回忆、追踪）、视觉推理（如空间、时间、预测、因果、反事实）以及导航（如房间到房间、物体检索）等多个任务领域。通过这种多任务的设计，HourVideo旨在全面评估模型在长时间视频理解中的能力。

使用方法

使用HourVideo数据集进行模型评估时，用户首先需要克隆GitHub仓库并设置相应的Python环境。接着，通过下载HourVideo基准数据集，用户可以使用提供的Jupyter笔记本进行GPT-4和Gemini 1.5 Pro模型的基准测试。这些笔记本提供了详细的步骤，指导用户如何使用单个视频进行模型性能的评估。值得注意的是，由于这些实验的成本较高，用户需谨慎监控API使用情况。通过这种方式，HourVideo数据集为研究人员提供了一个强大的工具，用于开发和评估能够真正理解长时间视频内容的高级多模态模型。

背景与挑战

背景概述

HourVideo数据集由斯坦福大学的一组研究人员于2024年创建，旨在推动视频与语言理解领域的发展。该数据集包含500个精心挑选的自中心视频，时长从20分钟到120分钟不等，涵盖了从摘要生成到视觉推理等多个任务。HourVideo的核心研究问题是如何使多模态模型能够有效处理长时间的视频数据，从而实现更深层次的理解。该数据集的发布不仅为研究者提供了一个新的基准，还揭示了当前多模态模型在处理长时间视频数据时的局限性，从而激发了该领域进一步的研究和创新。

当前挑战

HourVideo数据集在构建过程中面临了多个挑战。首先，长时间视频数据的处理需要高效的算法和强大的计算资源，以确保数据的质量和一致性。其次，多模态模型的性能在处理长时间视频时显著下降，尤其是在摘要生成、视觉推理和导航任务中。此外，数据集的多样性和复杂性也增加了模型训练和评估的难度。这些挑战不仅反映了当前技术的局限，也为未来的研究提供了明确的方向，即开发能够真正理解和处理长时间视频数据的高级多模态模型。

常用场景

经典使用场景

HourVideo数据集的经典使用场景主要集中在视频与语言理解的多模态任务上。该数据集通过提供长达一小时的视频内容，涵盖了从摘要生成、感知任务（如回忆、追踪）、视觉推理（包括空间、时间、预测、因果和反事实推理）到导航任务（如房间到房间的导航、物体检索）等多个复杂任务。这些任务的设计旨在全面评估和提升多模态模型在处理长时间视频数据时的理解和推理能力。

解决学术问题

HourVideo数据集解决了当前多模态模型在处理长时间视频数据时面临的重大挑战。通过提供500个精心挑选的长时间视频和12,976个高质量的多选题，该数据集显著推动了视频与语言理解的研究进展。它不仅揭示了现有模型在长时间视频理解上的局限性，还为开发更先进的多模态模型提供了基准，从而填补了学术研究中的重要空白。

实际应用

在实际应用中，HourVideo数据集的应用场景广泛，包括但不限于智能监控系统、自动驾驶、虚拟现实和增强现实等领域。例如，在智能监控系统中，该数据集可以用于训练模型识别和预测长时间视频中的关键事件，从而提高监控系统的效率和准确性。此外，在自动驾驶领域，该数据集可以用于提升车辆对复杂交通环境的理解和应对能力。

数据集最近研究

最新研究方向

在视频与语言理解领域，HourVideo数据集的最新研究方向主要集中在提升多模态模型的性能，特别是在处理长时间视频内容的能力上。当前的研究重点在于开发能够有效处理长达一小时视频的模型，以实现更精准的摘要生成、视觉感知、推理和导航任务。通过对比GPT-4和Gemini 1.5 Pro等先进模型在HourVideo上的表现，研究者们发现现有模型在处理长视频时仍存在显著不足，这为未来的研究提供了明确的方向，即开发能够真正理解并处理连续视觉数据的高级多模态模型。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测，包含VOC格式和YOLO训练的.txt文件，数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

用于陆面模拟的中国土壤数据集（第二版）

本研究对中国范围内0-2米六个标准深度层（0-5、5-15、15-30、30-60、60-100和100-200厘米）的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面，世界土壤信息服务的1540个土壤剖面，第一次全国土壤普查的76个土壤剖面，以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色（包括蒙赛尔颜色和RGB两种形式）。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供，有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求，CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量，可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心收录