VideoRefer-700K

github2025-01-01 更新2025-01-02 收录

下载链接：

https://github.com/DAMO-NLP-SG/VideoRefer

下载链接

链接失效反馈

官方服务：

资源简介：

VideoRefer-700K是一个大规模、高质量的对象级视频指令数据集，通过复杂的多代理数据引擎精心策划，填补了高质量对象级视频指令数据的空白。

VideoRefer-700K is a large-scale, high-quality object-level video instruction dataset. Meticulously curated via a sophisticated multi-agent data engine, it fills the gap in high-quality object-level video instruction data.

创建时间：

2024-12-23

原始信息汇总

VideoRefer Suite 数据集概述

数据集简介

VideoRefer Suite 是一个旨在增强视频大语言模型（Video LLMs）在细粒度时空理解能力的套件。它包含三个主要组件：模型（VideoRefer）、数据集（VideoRefer-700K）和基准测试（VideoRefer-Bench）。

主要组件

1. 模型（VideoRefer）

功能：VideoRefer 是一个有效的视频大语言模型，能够在任意指定时间戳对用户定义的区域进行细粒度感知、推理和检索。
支持：支持单帧和多帧区域输入。

2. 数据集（VideoRefer-700K）

规模：VideoRefer-700K 是一个大规模、高质量的对象级视频指令数据集。
生成方式：通过复杂的多代理数据引擎生成，填补了高质量对象级视频指令数据的空白。

3. 基准测试（VideoRefer-Bench）

评估内容：VideoRefer-Bench 是一个综合基准测试，用于评估模型在对象级视频理解方面的能力。
子基准：包含两个子基准测试：VideoRefer-Bench-D（描述生成）和 VideoRefer-Bench-Q（多项选择题回答）。

数据集使用

安装与依赖

基本依赖：Python >= 3.8, Pytorch >= 2.2.0, CUDA Version >= 11.8, transformers == 4.40.0, tokenizers == 0.19.1。
安装步骤： bash git clone https://github.com/DAMO-NLP-SG/VideoRefer cd VideoRefer pip install -r requirements.txt pip install flash-attn==2.5.8 --no-build-isolation

训练与评估

训练阶段：分为四个阶段，包括图像-文本对齐预训练、区域-文本对齐预训练、高质量知识学习和视觉指令微调。
评估：详细评估方法请参考 eval。

模型库

模型名称	视觉编码器	语言解码器	训练帧数
VideoRefer-7B	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoRefer-7B-stage2	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoRefer-7B-stage2.5	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16

基准测试使用

注释：基准测试的注释可在 🤗benchmark 找到。
使用说明：详细使用方法请参考 doc。

引用

如果 VideoRefer Suite 对您的研究和应用有帮助，请使用以下 BibTeX 引用： bibtex @article{yuan2024videorefersuite, title = {VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM}, author = {Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing}, journal={arXiv}, year={2024}, url = {} }

搜集汇总

数据集介绍

构建方式

VideoRefer-700K数据集的构建依托于一个复杂多智能体数据引擎，旨在填补高质量对象级视频指令数据的空白。通过精心设计的流程，该数据集涵盖了广泛的视频内容，确保数据的多样性和代表性。构建过程中，研究人员采用了先进的视频处理技术，结合多帧区域输入，使得数据集能够支持细粒度的时空对象理解。

使用方法

使用VideoRefer-700K数据集时，研究人员可以通过提供的示例代码进行单视频推理，支持单帧和多帧模式。为了获得更好的使用体验，建议结合SAM2进行可视化处理。具体操作包括安装相关依赖、下载预训练模型，并按照提供的训练和评估流程进行操作。通过这种方式，用户能够充分利用该数据集进行模型训练和性能评估。

背景与挑战

背景概述

VideoRefer-700K数据集由DAMO-NLP-SG团队于2024年推出，旨在提升视频大语言模型（Video LLMs）在时空对象理解方面的能力。该数据集作为VideoRefer Suite的核心组成部分，填补了高质量对象级视频指令数据的空白。通过多智能体数据引擎精心构建，VideoRefer-700K支持单帧和多帧区域输入，为模型提供了丰富的感知、推理和检索能力。该数据集的发布推动了视频理解领域的发展，特别是在细粒度对象识别和时空关系建模方面，为相关研究提供了重要的数据支持。

当前挑战

VideoRefer-700K数据集在构建和应用过程中面临多重挑战。首先，视频数据的时空复杂性使得对象级标注难度显著增加，尤其是在多帧场景下，如何准确捕捉对象的动态变化成为关键问题。其次，数据引擎的设计需要兼顾多样性和质量，以确保生成的指令数据既能覆盖广泛的场景，又能保持高精度。此外，模型的训练和评估过程对计算资源要求极高，尤其是在多阶段训练中，如何优化资源分配和提升训练效率是亟待解决的难题。最后，数据集的广泛应用需要与现有模型框架无缝集成，这对数据格式和接口设计提出了更高的要求。

常用场景

经典使用场景

VideoRefer-700K数据集在视频理解领域具有广泛的应用，特别是在时空对象理解方面。该数据集通过提供大规模、高质量的对象级视频指令数据，支持视频大语言模型（Video LLMs）进行细粒度的感知、推理和检索。研究人员可以利用该数据集对视频中的特定对象进行精确的时空定位和描述，从而提升模型在复杂场景下的理解能力。

解决学术问题

VideoRefer-700K数据集解决了视频理解领域中高质量对象级指令数据匮乏的问题。通过其丰富的数据资源，研究人员能够训练出更具鲁棒性的视频大语言模型，提升模型在时空对象感知、推理和检索方面的性能。该数据集的出现填补了现有数据集的空白，为视频理解研究提供了强有力的支持，推动了该领域的进一步发展。

实际应用

在实际应用中，VideoRefer-700K数据集被广泛用于智能视频分析、自动驾驶、安防监控等领域。例如，在自动驾驶系统中，该数据集可以帮助模型更准确地识别和理解道路上的动态对象，提升驾驶安全性。在安防监控中，该数据集能够辅助系统实时检测和跟踪可疑目标，增强监控效率。其高质量的数据为实际应用场景提供了可靠的技术支持。

数据集最近研究