Eagle-Video-110K

Name: Eagle-Video-110K
Creator: 南京大学, 香港理工大学, 罗格斯大学
Published: 2025-04-22 01:57:28
License: 暂无描述

arXiv2025-04-22 更新2025-04-23 收录

下载链接：

http://arxiv.org/abs/2504.15271v1

下载链接

链接失效反馈

官方服务：

资源简介：

Eagle-Video-110K是一个专门设计用于增强长视频理解能力的数据集，由南京大学等机构创建。该数据集整合了故事级别和剪辑级别注释，能够促进长视频的理解。数据集通过多样性驱动的方法收集，使用多个视频源和一个相似性阈值方法来识别新颖的片段，以最大化内容的多样性。数据集采用自上而下的故事级别方法和自下而上的剪辑级别方法进行注释，形成了密集的字幕，为全面的长形式问答对捕捉整个视频的叙事结构提供了基础。

Eagle-Video-110K is a dataset specifically tailored for advancing long-form video understanding, developed by institutions including Nanjing University. This dataset integrates both story-level and clip-level annotations, which enables improved comprehension of long videos. Collected via a diversity-driven methodology, it leverages multiple video sources and a similarity threshold technique to identify novel segments, thus maximizing content diversity. Annotations are generated using both top-down story-level and bottom-up clip-level approaches, yielding dense captions that establish a solid foundation for capturing the narrative structure of entire videos to support comprehensive long-form question-answering pairs.

提供机构：

南京大学, 香港理工大学, 罗格斯大学

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

Eagle-Video-110K数据集的构建采用了多样化的视频来源和创新的标注策略，以确保数据的高质量和广泛覆盖。首先，通过多样性驱动的视频收集策略，从多个公开数据源（如Vidchapters、MiraData、InternVid-10M等）获取视频内容。利用CLIP模型提取视频的时序特征，并通过相似度阈值筛选新颖的视频片段，以最大化内容的多样性。其次，采用双层次标注方法：自上而下的故事级标注通过人工标注的章节划分视频，生成密集的视觉描述和长形式问答对；自下而上的片段级标注则利用GPT-4o生成短片段的多类型问答对，并通过时间锚点和上下文锚点扩展至完整视频。这种混合标注策略确保了数据集在长视频理解任务中的全面性和精细性。

特点

Eagle-Video-110K数据集的特点在于其大规模、多样化和多层次标注。数据集包含110K个视频，覆盖广泛的视频类型和内容，确保了数据的多样性和代表性。其独特的双层次标注策略不仅提供了高层次的语义理解（故事级标注），还包含了细粒度的时空细节（片段级标注），适用于复杂的长视频理解任务。此外，数据集通过自动化和人工标注的结合，平衡了标注成本和质量，使其成为训练和评估前沿视觉-语言模型的理想选择。

使用方法

Eagle-Video-110K数据集主要用于训练和评估长视频理解模型。研究人员可以利用其故事级和片段级标注，开发能够处理长视频上下文和多模态信息的模型。数据集适用于多种任务，如视频问答、视频摘要和时序推理。使用时，建议结合数据集的层次化标注结构，设计模型以同时捕捉视频的全局叙事和局部细节。此外，数据集的多样性使其适用于跨领域泛化研究，可通过微调或迁移学习适配特定应用场景。

背景与挑战

背景概述

Eagle-Video-110K是由NVIDIA、南京大学、香港理工大学和罗格斯大学等机构的研究团队于2025年提出的一个大规模视频理解数据集，旨在推动前沿视觉语言模型（VLMs）在长上下文多模态学习中的发展。该数据集作为Eagle 2.5模型的核心训练资源，整合了故事级和片段级双重标注，解决了现有VLMs在长视频理解和高分辨率图像/视频分析中的局限性。其创新性地采用自动降级采样（ADS）和图像区域保留（IAP）技术，在保持视觉细节完整性的同时优化长上下文数据处理效率，显著提升了模型在512帧输入下72.4%的Video-MME基准性能，达到与GPT-4o等顶级商业模型相当的水平。

当前挑战

该数据集主要面临两大挑战：1) 领域问题挑战：传统VLMs多聚焦短上下文任务，而长视频理解需处理跨帧的时空关联、复杂事件因果推理及多层次语义理解，如视频中人物行为序列分析需建模长达数十分钟的时序依赖；2) 构建过程挑战：在数据标注阶段，需平衡人工标注成本与质量，采用GPT-4o自动化生成片段级QA对时，需设计时间锚点和文本上下文锚来确保局部标注与全局叙事的连贯性。此外，处理万秒级视频时面临存储压缩（原始视频平均占用1.2TB）和计算效率问题，通过相似度阈值筛选策略（CLIP特征余弦相似度<0.5）保障数据多样性的同时，需解决长视频解码的内存管理瓶颈。

常用场景

经典使用场景

在视觉语言模型（VLM）的长上下文多模态学习领域，Eagle-Video-110K数据集通过整合故事级和片段级注释，为长视频理解任务提供了丰富的标注资源。其经典使用场景包括训练和评估模型对长视频内容的整体叙事结构和局部时空细节的联合理解能力。例如，在视频问答（Video QA）任务中，模型需同时利用故事级注释把握视频全局脉络，结合片段级注释定位特定时间点的视觉细节，从而回答涉及长视频复杂语义关联的问题。

衍生相关工作

该数据集已衍生出多项重要研究工作：基于其构建的Eagle 2.5模型系列在Video-MME基准上达到GPT-4o相当性能；催生了渐进式混合训练策略（Progressive Mixed Post-Training），通过分阶段扩展上下文长度提升模型长视频处理能力；启发的信息优先采样技术（Information-First Sampling）被广泛应用于多模态模型训练。相关方法已被LongViTA、Qwen2.5-VL等后续工作借鉴，推动形成了长上下文VLM的技术范式。

数据集最近研究