VOI dataset

github2025-02-28 更新2025-03-06 收录

下载链接：

https://github.com/WesLee88524/C-Drag-Official-Repo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三种典型的交互类型，并为可用的运动轨迹提供了对象运动轨迹，可用于准确性能评估。

This dataset comprises three typical interaction types, and provides object motion trajectories for all available motion trajectory cases, which can be employed for accurate performance evaluation.

创建时间：

2025-02-12

原始信息汇总

C-Drag数据集概述

数据集基本信息

名称: C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation
发布机构: 西北工业大学、Mohamed bin Zayed University of AI、9009.ai、澳大利亚国立大学、林雪平大学
发布日期: 2025年2月28日
相关论文: arXiv论文

数据集内容

VOI数据集:
- 视频数量: 72个
- 标注框数量: 7320个
- 标注轨迹数量: 711条
- 交互类型:
  - 碰撞与连锁反应: 包含台球、牛顿摆、交通场景
  - 重力与力: 包含篮球、足球场景
  - 杠杆与镜子: 包含跷跷板、镜子场景

数据集特点

对象感知模块: 使用视觉语言模型捕捉图像中对象的位置和类别信息
Chain-of-Thought运动推理模块: 分阶段推理生成每个受影响对象的运动轨迹
视频合成: 使用预训练的基于轨迹的生成模型生成多对象交互视频

数据集下载

VOI数据集下载地址: Google Drive

引用信息

BibTeX @misc{li2025cdragchainofthoughtdrivenmotion, title={C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation}, author={Yuhao Li and Mirana Claire Angel and Salman Khan and Yu Zhu and Jinqiu Sun and Yanning Zhang and Fahad Shahbaz Khan}, year={2025}, eprint={2502.19868}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.19868}, }

搜集汇总

数据集介绍

构建方式

本数据集的构建基于对视频对象交互的深入理解，通过精心挑选和标注72个视频，涵盖碰撞与链式反应、重力和力量、杠杆和镜子三种典型交互类型。每个视频均包含详细的物体轨迹和边界框标注，为算法提供精确的性能评估基础。

特点

VOI数据集的特点在于其多样性、标注详尽性以及针对性的交互类型设计。它不仅提供了丰富的物体运动轨迹数据，而且通过不同场景的交互类型，为研究物体动态互动提供了宝贵资源，有利于推动视频生成算法的发展。

使用方法

使用该数据集时，用户需先设置合适的环境，下载预训练权重，然后通过提供的demo脚本，即可实现图像的拖动与动画生成。用户可以交互式地测试不同的拖动轨迹，观察算法生成的视频效果。

背景与挑战

背景概述

VOI数据集是在计算机视觉和视频生成领域的一个创新成果，由Yuhao Li、Mirana Claire Angel等研究人员于2025年共同创建。该数据集隶属于C-Drag项目，旨在通过一种新型的Chain-of-Thought驱动的运动控制器来生成可控视频。VOI数据集的核心研究问题是提高视频生成中运动控制的准确性和交互性，其研究成果对视频生成领域产生了显著影响，为相关研究提供了重要的实验基础。

当前挑战

VOI数据集在构建过程中遇到了多重挑战。首先，如何准确捕捉并描述图像中不同物体之间的动态交互是一个技术难题。其次，构建一个能够涵盖多种典型交互类型的视频数据集，并提供精确的运动轨迹标注，对于数据集的质量控制提出了挑战。此外，所解决的领域问题——可控视频生成中的运动控制，需要克服现有方法中仅生成运动轨迹而忽视物体与环境动态交互的局限性。

常用场景

经典使用场景

在视频生成领域，轨迹基础的运动控制是一种直观且高效的方法。VOI数据集应运而生，旨在通过提供对象运动轨迹，评价运动控制视频生成方法的生成质量。该数据集的经典使用场景在于，研究者利用其提供的丰富交互类型，如碰撞连锁反应、重力和力、杠杆和镜像，进行视频对象交互的精确控制，进而生成高质量的视频内容。

解决学术问题

VOI数据集解决了传统轨迹基础方法中忽略了控制对象与周围环境动态交互的局限性。通过提供包含多种交互类型的详细轨迹标注，该数据集使得研究者能够更准确地评估和改进视频生成算法，特别是在对象运动控制方面的性能，对提升视频生成方法的真实感和交互性具有重要意义。

衍生相关工作

基于VOI数据集，学术界已衍生出一系列相关工作，如C-Drag运动控制器，它通过对象感知和基于Chain-of-Thought的运动推理模块，不仅提高了视频生成的质量，还拓展了运动控制视频生成的研究领域，推动了相关技术的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集