LongViTU

github2025-01-13 更新2025-01-14 收录

下载链接：

https://github.com/rujiewu/LongViTU

下载链接

链接失效反馈

官方服务：

资源简介：

LongViTU是一个大规模（约121k QA对，约900小时视频）的自动生成数据集，用于长视频理解。该数据集采用了一种系统化的方法，将视频组织成层次树结构，并引入了自我修订机制以确保高质量的QA对。每个QA对都具有长期上下文（平均证书长度为4.6分钟）、丰富的知识和浓缩的推理（常识、因果关系、规划等）以及相关事件的明确时间戳标签。LongViTU还作为长视频和流媒体视频理解中指令遵循的基准。

LongViTU is a large-scale automatically generated dataset designed for long-form video understanding, consisting of approximately 121k QA pairs and spanning roughly 900 hours of video content. This dataset employs a systematic approach to organize videos into a hierarchical tree structure, and incorporates a self-revision mechanism to ensure the high quality of the generated QA pairs. Each QA pair features long-term context (with an average context duration of 4.6 minutes), rich knowledge, condensed reasoning covering common sense, causal relationships, planning and other aspects, as well as explicit timestamp annotations for relevant events. Additionally, LongViTU serves as a benchmark for instruction-following tasks in long-form and streaming video understanding.

创建时间：

2025-01-10

原始信息汇总

LongViTU 数据集概述

数据集简介

LongViTU 是一个用于长视频理解的大规模数据集，包含约121k个问答对和约900小时的视频。该数据集通过系统化的方法生成，视频内容被组织成层次树结构，并引入了自我修订机制以确保高质量的问答对。每个问答对具有以下特点：

长期上下文：平均上下文长度为4.6分钟。
丰富的知识和推理：包含常识、因果关系、规划等内容。
明确的时间戳标签：为相关事件提供时间戳。

数据集特点

规模：121k个问答对，900小时视频。
结构：视频内容被组织成层次树结构，支持多时间尺度的信息提取。
质量保证：通过自我修订机制去除冗余和不相关信息，确保数据质量。
应用场景：作为长视频理解和流媒体视频理解的基准数据集。

数据集评估

LongViTU 数据集被用于评估开源和商业模型在长视频理解任务中的表现。评估结果显示：

开源模型 LongVU：在 LongViTU 基准上得分为55.9，优于商业模型 Gemini-1.5-Pro 的52.3分。
性能提升：通过对 LongVU 进行监督微调（SFT），在 LongViTU 基准上提升了12.0%，在其他基准（如 EgoSchema、VideoMME、WorldQA 和 OpenEQA）上也有显著提升。

数据集结构

数据集文件结构如下： plain LongViTU ├── dataset │ └── longvitu │ ├── videos │ │ ├── 0000_ed90c2e8-c608-423f-a565-7b4cfffbe438.mp4 │ │ ├── 0001_80d2d992-0765-4fd9-b75b-7334cfefbd6f.mp4 │ │ ├── .... │ │ └── 1832_cdfd99eb-88c6-4bc7-8f66-e0318216feab.mp4 │ ├── longvitu_train_101k.json │ ├── longvitu_valid_14k.json │ └── longvitu_test_6k.json

数据集下载与使用

视频数据：从 Ego4D 下载。
标注文件：从 Hugging Face 下载。

引用

如果您在研究中使用了 LongViTU 数据集，请引用以下论文： bibtex @misc{wu2025longvituinstructiontuninglongform, title={LongViTU: Instruction Tuning for Long-Form Video Understanding}, author={Rujie Wu and Xiaojian Ma and Hai Ci and Yue Fan and Yuxuan Wang and Haozhe Zhao and Qing Li and Yizhou Wang}, year={2025}, eprint={2501.05037}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.05037}, }

许可证

代码：Apache 许可证。
数据：CC BY-NC-SA 4.0 许可证。

搜集汇总

数据集介绍

构建方式

LongViTU数据集的构建采用了系统化的方法，通过将视频内容组织成层次化的树结构，并结合自修正机制，确保了高质量问答对的生成。具体而言，视频内容被划分为多个时间尺度（如帧级别、事件级别、片段级别），并通过总结不同时间尺度的信息，生成了带有明确时间戳的问答对。这种层次化的处理方式不仅克服了长视频输入长度过长的问题，还使得生成的问题能够与视频内容进行细粒度的对齐。自修正步骤进一步优化了生成结果，去除了冗余和不相关的信息，从而提升了数据质量。

特点

LongViTU数据集的特点在于其大规模和高复杂性。该数据集包含约12.1万对问答和约900小时的视频内容，涵盖了长时上下文理解、丰富的知识推理以及明确的时间戳标注。每个问答对平均涉及4.6分钟的视频内容，要求模型具备长期记忆和推理能力。此外，数据集还包含了常识、因果关系、规划等多种推理任务，为长视频理解提供了全面的评估基准。通过引入自修正机制，数据集在质量和多样性上均表现出色，能够有效支持模型在长视频理解任务中的性能提升。

使用方法

LongViTU数据集的使用方法主要围绕视频理解和问答任务的训练与评估展开。用户首先需要从Ego4D平台下载视频数据，并从Hugging Face获取标注文件。数据准备完成后，用户可以通过提供的代码库（如Video-LLaVA、LLaMA-VID和LongVU）进行模型的微调和推理。具体步骤包括运行训练脚本、生成模型检查点以及执行评估脚本。数据集支持多种评估基准，如EgoSchema、VideoMME和WorldQA等，用户可以根据需求选择不同的评估任务。通过微调模型并在这些基准上进行测试，用户可以验证模型在长视频理解任务中的表现，并进一步优化模型性能。

背景与挑战

背景概述

LongViTU数据集由Rujie Wu等研究人员于2025年提出，旨在推动长视频理解领域的研究。该数据集包含约121,000个问答对，覆盖约900小时的视频内容，专注于长视频的上下文理解与推理任务。通过系统化的方法，LongViTU将视频内容组织为层次化的树状结构，并结合自修正机制，确保生成高质量的问答对。每个问答对不仅包含长时间跨度的上下文信息（平均4.6分钟），还涵盖了丰富的知识推理任务，如常识推理、因果推理和规划推理等。LongViTU的发布为长视频理解模型的训练与评估提供了重要的基准，显著提升了相关领域的研究水平。

当前挑战

LongViTU数据集在构建与应用中面临多重挑战。首先，长视频理解任务本身具有复杂性，视频内容的时间跨度长、信息密度高，模型需要捕捉长时间跨度的上下文信息并进行多层次的推理。其次，数据集的构建过程中，如何确保问答对的多样性与高质量是一大难题。尽管采用了层次化树状结构和自修正机制，但视频内容的复杂性和多样性仍可能导致问答对的冗余或信息不完整。此外，长视频理解模型的训练与评估对计算资源要求极高，如何在有限资源下高效训练模型并实现跨领域的泛化能力，是当前研究的重要挑战。

常用场景

经典使用场景

LongViTU数据集在长视频理解领域具有广泛的应用，特别是在需要处理长时间跨度的视频内容时。该数据集通过自动生成的问答对，帮助模型理解视频中的复杂事件和长期上下文关系。其经典使用场景包括视频内容摘要生成、事件时间线标注以及多模态视频问答系统的开发。通过将视频内容组织为层次化的树结构，LongViTU能够有效捕捉视频中的多尺度信息，从而为模型提供丰富的上下文支持。

衍生相关工作

LongViTU数据集推动了多个相关领域的研究进展。基于该数据集，研究者们开发了多种长视频理解模型，如LongVU和Video-LLaVA等。这些模型在长视频问答、事件检测和视频摘要生成等任务中表现出色。此外，LongViTU还激发了关于多模态学习和自监督学习的研究，推动了视频理解技术的进一步发展。相关研究不仅在学术界引起了广泛关注，也为工业界的实际应用提供了有力支持。

数据集最近研究