OmniTr

Name: OmniTr
Creator: 浙江大学, 上海交通大学, 北京工业大学, 江南大学, 中国科学技术大学, 南京大学
Published: 2025-04-03 14:38:30
License: 暂无描述

arXiv2025-04-03 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.02312v1

下载链接

链接失效反馈

官方服务：

资源简介：

OmniTr数据集是由浙江大学等研究机构创建的多模态相机控制数据集，包含大量高质量的长序列轨迹、视频及其对应的文本描述。数据集以轨迹组为基本单元，每组包含轨迹描述、离散运动表示、极坐标中的轨迹以及高质量视频。OmniTr数据集在模态丰富性、轨迹控制多样性以及数据量上具有优势，为相机控制研究提供了全面的资源库。

The OmniTr dataset is a multimodal camera control dataset created by research institutions including Zhejiang University. It contains a large number of high-quality long-sequence trajectories, videos and their corresponding textual descriptions. The dataset takes trajectory groups as its basic unit, and each group includes trajectory descriptions, discrete motion representations, trajectories in polar coordinates, and high-quality videos. The OmniTr dataset has advantages in modal richness, trajectory control diversity and data scale, providing a comprehensive resource repository for camera control research.

提供机构：

浙江大学, 上海交通大学, 北京工业大学, 江南大学, 中国科学技术大学, 南京大学

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

OmniTr数据集构建过程融合了多模态数据采集与精细化标注技术。研究团队首先利用GPT生成大量轨迹描述文本，通过人工标注将其转化为离散运动表示信息，再借助轨迹规划算法转换为极坐标形式的连续轨迹序列。基于CO3D数据集的内容框架，采用Viewcrafter工具生成对应视频片段，形成包含轨迹描述、离散运动表示、极坐标轨迹和高清视频的四元组结构。为确保数据多样性，每个轨迹组配备10种文本描述和30段不同类别的视频，最终构建了包含1000个独特轨迹组的大规模资源库，实现了对六自由度相机运动的精确参数化表征。

特点

该数据集的核心优势在于其多模态覆盖与细粒度控制能力。作为首个专为相机控制设计的跨模态数据集，OmniTr同时包含文本描述、视频序列和运动参数三元组，支持任意角度的复合方向运动、变焦操作及旋转控制。其离散运动表示可精准解析为包含起始时间、速度、方向、旋转等字段的六自由度序列，帧级控制精度达毫秒级。统计显示数据覆盖单方向运动（27.5%）、复合方向运动（25.7%）、角度运动（40.1%）和旋转运动（6.7%），且83%的文本指令包含2-4组操作描述，实现了运动模式的全方位均衡覆盖。

使用方法

该数据集主要服务于相机控制视频生成模型的训练与评估。使用时需将多模态输入分为内容参考（图像/视频）和轨迹参考（文本/视频）两类：文本轨迹通过大型语言模型解析为离散运动表示，视频轨迹则经SLAM算法提取相机路径。极坐标轨迹可直接转换为相机外参矩阵，驱动3D高斯泼溅或神经辐射场进行视角渲染。评估阶段可采用五项专有指标（Mdirection/Mspeed等）量化轨迹生成准确性，并结合LPIPS、CLIPSR等传统指标衡量视频质量。数据集的标准化结构支持端到端训练流程，其多模态特性尤其适合跨模态表示学习任务。

背景与挑战

背景概述

OmniTr数据集由上海交通大学和浙江大学等机构的研究团队于2025年提出，旨在解决多模态视频生成中的相机控制问题。该数据集作为OmniCam框架的核心训练资源，首次整合了长序列轨迹、视频及文本描述的多模态数据，填补了现有数据集在复杂相机运动控制和多模态输入支持方面的空白。基于CO3D数据集构建视频内容，并利用大语言模型生成多样化文本描述，OmniTr通过精确到帧级的控制信息，为6DoF连续视角生成任务提供了重要基准，推动了空间智能研究中四维时空连续体参数化表征的突破。

当前挑战

OmniTr数据集面临的挑战主要体现在两方面：领域问题层面，需解决单图像输入下的相机控制难题，包括区分相机角度变化与主体运动、维持复杂操作中的空间结构一致性；构建过程层面，需克服长序列轨迹规划的时空连续性、多模态数据对齐（如视频-文本跨模态关联）以及低帧率环境下轨迹提取的精度问题。传统特征点匹配算法在相邻帧视觉重叠不足时失效，而运动模型在帧间隔增大时预测不确定性显著增加，这些技术瓶颈亟需通过创新的轨迹表示方法和跨模态融合策略来突破。

常用场景

经典使用场景

OmniTr数据集在计算机视觉领域主要用于支持多模态相机控制框架OmniCam的训练与评估。该数据集通过提供高质量的长时间序列轨迹、视频及其对应的文本描述，为相机运动控制研究提供了丰富的数据支持。其经典使用场景包括基于文本或视频输入的相机轨迹生成、多模态数据融合的视频合成，以及复杂相机运动的精确控制。

解决学术问题

OmniTr数据集解决了现有方法在相机控制领域的多个关键问题。首先，它填补了缺乏长序列相机控制数据的空白，支持复杂灵活的相机运动。其次，数据集提供的多模态输入（文本、视频、图像）解决了现有方法交互成本高、支持模态有限的问题。最重要的是，它首次解决了空间长序列轨迹规划和视频引导轨迹生成等核心学术问题，为相机运动控制领域建立了新的基准。

衍生相关工作

基于OmniTr数据集，衍生出了一系列重要的研究工作。除了核心的OmniCam框架外，该数据集还支持了相机轨迹提取算法、多模态融合技术等方面的创新研究。相关经典工作包括改进的SLAM算法在低帧率视频中的轨迹提取、基于强化学习的端到端优化方法，以及结合3D高斯泼溅和扩散模型的视频生成技术，这些工作都显著推动了相机控制领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集