five

HourVideo|视频理解数据集|多模态模型数据集

收藏
github2024-12-03 更新2024-12-06 收录
视频理解
多模态模型
下载链接:
https://github.com/keshik6/HourVideo
下载链接
链接失效反馈
资源简介:
HourVideo是一个用于长时间视频语言理解的基准数据集。它包含了一个新颖的任务套件,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、物体检索)任务。HourVideo包括从Ego4D数据集中手动挑选的500个以自我为中心的视频,持续时间为20到120分钟,并具有12,976个高质量的五路多项选择题。基准测试结果显示,多模态模型(包括GPT-4和LLaVA-NeXT)在随机机会上取得了微小的改进。相比之下,人类专家显著优于最先进的长时间上下文多模态模型Gemini Pro 1.5(85.0%对37.3%),突显了多模态能力上的巨大差距。我们希望将HourVideo建立为一个基准挑战,以推动能够真正理解无尽视觉数据流的先进多模态模型的发展。
创建时间:
2024-11-28
原始信息汇总

HourVideo: 1-Hour Video-Language Understanding

概述

HourVideo 是一个用于长时间视频语言理解的数据集,包含 500 个从 Ego4D 数据集中手动筛选的以自我为中心的视频,时长从 20 分钟到 120 分钟不等。数据集包含 12,976 个高质量的五选一多选题,涵盖总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、物体检索)任务。

数据集组成

  • 视频数量: 500 个
  • 视频时长: 20 分钟到 120 分钟
  • 问题数量: 12,976 个五选一多选题

任务类型

  1. 总结
  2. 感知
    • 回忆
    • 跟踪
  3. 视觉推理
    • 空间
    • 时间
    • 预测
    • 因果
    • 反事实
  4. 导航
    • 房间到房间
    • 物体检索

基准结果

  • GPT-4: 平均得分 19.6%
  • LLaVA-34B-DPO: 平均得分 22.3%
  • Gemini 1.5 Pro: 平均得分 37.3%

数据集下载

  • 开发集: 包含 50 个视频,1182 个多选题,时长 39.3 小时。下载地址:HourVideo 开发集

联系信息

  • Keshigeyan Chandrasegaran: keshik@stanford.edu
  • Agrim Gupta: agrim@stanford.edu
  • Lea M. Hadzic: lea27@stanford.edu
  • Manling Li: manlingl@stanford.edu

引用

bibtex @inproceedings{chandrasegaran2024hourvideo, title={HourVideo: 1-Hour Video-Language Understanding}, author={Chandrasegaran, Keshigeyan and Gupta, Agrim and Hadzic, Lea M. and Kota, Taran and He, Jimming and Eyzaguirre, Cristobal and Durante, Zane and Li, Manling and Wu, Jiajun and Li, Fei-Fei}, booktitle = {Advances in Neural Information Processing Systems}, year={2024}, volume = {37}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
HourVideo数据集的构建基于Ego4D数据集,精心挑选了500个以自我为中心的视频,时长从20分钟到120分钟不等。这些视频经过手动筛选,确保其质量和多样性。数据集包含了12,976个高质量的五选一多选题,涵盖了视频摘要、感知(如回忆、追踪)、视觉推理(如空间、时间、预测、因果、反事实)以及导航(如房间到房间、物体检索)等多个任务领域。通过这种多任务的设计,HourVideo旨在全面评估模型在长时间视频理解中的能力。
使用方法
使用HourVideo数据集进行模型评估时,用户首先需要克隆GitHub仓库并设置相应的Python环境。接着,通过下载HourVideo基准数据集,用户可以使用提供的Jupyter笔记本进行GPT-4和Gemini 1.5 Pro模型的基准测试。这些笔记本提供了详细的步骤,指导用户如何使用单个视频进行模型性能的评估。值得注意的是,由于这些实验的成本较高,用户需谨慎监控API使用情况。通过这种方式,HourVideo数据集为研究人员提供了一个强大的工具,用于开发和评估能够真正理解长时间视频内容的高级多模态模型。
背景与挑战
背景概述
HourVideo数据集由斯坦福大学的一组研究人员于2024年创建,旨在推动视频与语言理解领域的发展。该数据集包含500个精心挑选的自中心视频,时长从20分钟到120分钟不等,涵盖了从摘要生成到视觉推理等多个任务。HourVideo的核心研究问题是如何使多模态模型能够有效处理长时间的视频数据,从而实现更深层次的理解。该数据集的发布不仅为研究者提供了一个新的基准,还揭示了当前多模态模型在处理长时间视频数据时的局限性,从而激发了该领域进一步的研究和创新。
当前挑战
HourVideo数据集在构建过程中面临了多个挑战。首先,长时间视频数据的处理需要高效的算法和强大的计算资源,以确保数据的质量和一致性。其次,多模态模型的性能在处理长时间视频时显著下降,尤其是在摘要生成、视觉推理和导航任务中。此外,数据集的多样性和复杂性也增加了模型训练和评估的难度。这些挑战不仅反映了当前技术的局限,也为未来的研究提供了明确的方向,即开发能够真正理解和处理长时间视频数据的高级多模态模型。
常用场景
经典使用场景
HourVideo数据集的经典使用场景主要集中在视频与语言理解的多模态任务上。该数据集通过提供长达一小时的视频内容,涵盖了从摘要生成、感知任务(如回忆、追踪)、视觉推理(包括空间、时间、预测、因果和反事实推理)到导航任务(如房间到房间的导航、物体检索)等多个复杂任务。这些任务的设计旨在全面评估和提升多模态模型在处理长时间视频数据时的理解和推理能力。
解决学术问题
HourVideo数据集解决了当前多模态模型在处理长时间视频数据时面临的重大挑战。通过提供500个精心挑选的长时间视频和12,976个高质量的多选题,该数据集显著推动了视频与语言理解的研究进展。它不仅揭示了现有模型在长时间视频理解上的局限性,还为开发更先进的多模态模型提供了基准,从而填补了学术研究中的重要空白。
实际应用
在实际应用中,HourVideo数据集的应用场景广泛,包括但不限于智能监控系统、自动驾驶、虚拟现实和增强现实等领域。例如,在智能监控系统中,该数据集可以用于训练模型识别和预测长时间视频中的关键事件,从而提高监控系统的效率和准确性。此外,在自动驾驶领域,该数据集可以用于提升车辆对复杂交通环境的理解和应对能力。
数据集最近研究
最新研究方向
在视频与语言理解领域,HourVideo数据集的最新研究方向主要集中在提升多模态模型的性能,特别是在处理长时间视频内容的能力上。当前的研究重点在于开发能够有效处理长达一小时视频的模型,以实现更精准的摘要生成、视觉感知、推理和导航任务。通过对比GPT-4和Gemini 1.5 Pro等先进模型在HourVideo上的表现,研究者们发现现有模型在处理长视频时仍存在显著不足,这为未来的研究提供了明确的方向,即开发能够真正理解并处理连续视觉数据的高级多模态模型。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

集装箱图像数据集

本数据集主要是使用Realsense 435I相机对堆场实验平台中的集装箱堆进行拍摄得到的图像文件,对识别集装箱上表面的实例分割算法进行了训练和验证,包括1个用于训练实例分割模型的训练集图像文件夹和1个验证实例分割模型准确性的验证集图像文件夹。

国家基础学科公共科学数据中心 收录

DNS-Challenge

深度噪声抑制挑战数据集,包含干净的语音和噪声剪辑,用于训练和评估在有噪声环境下增强语音的模型。

huggingface 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。

DataCite Commons 收录

MIDV-500

该数据集包含使用移动设备拍摄的不同文档图像,这些图像通常具有投影变形。数据集分为训练和测试两部分,其中训练部分包含30种文档类型,测试部分包含20种,在应用神经网络之前,所有图像都被缩放到统一的宽度,宽度为400像素。该数据集的任务是进行消失点检测。

arXiv 收录