OpenUni

Name: OpenUni
Creator: 香港科技大学, 香港中文大学, 清华大学, 快手科技Kling团队
Published: 2025-12-09 02:59:01
License: 暂无描述

arXiv2025-12-09 更新2025-12-10 收录

下载链接：

https://github.com/dvlab-research/UnityVideo

下载链接

链接失效反馈

官方服务：

资源简介：

OpenUni是由快手科技Kling团队联合多所高校构建的大规模多模态视频数据集，包含130万条样本，涵盖光流、深度图、密集姿态、骨骼关键点和分割掩码五种模态。该数据集通过预训练模型从互联网视频中提取多模态标注，并经过严格的质量过滤，包含37万单人视频、9.7万双人视频以及来自Koala36M和OpenS2V的83万通用场景视频。数据集采用课程学习策略构建，支持像素对齐和非对齐模态的联合训练，旨在推动视频生成模型在物理世界理解、多任务协同和零样本泛化方面的研究。

OpenUni is a large-scale multimodal video dataset constructed by the Kling Team of Kuaishou Technology in collaboration with multiple universities. It comprises 1.3 million samples covering five modalities: optical flow, depth maps, dense pose, skeletal keypoints, and segmentation masks. Multimodal annotations are extracted from internet videos via pre-trained models for this dataset, which has undergone rigorous quality filtering. The dataset includes 370,000 single-person videos, 97,000 two-person videos, and 830,000 general-scene videos sourced from Koala36M and OpenS2V. Built using a curriculum learning strategy, the dataset supports joint training of pixel-aligned and unaligned modalities, and aims to advance research on video generation models in the domains of physical world understanding, multi-task collaboration, and zero-shot generalization.

提供机构：

香港科技大学, 香港中文大学, 清华大学, 快手科技Kling团队

创建时间：

2025-12-09

原始信息汇总

UnityVideo数据集概述

数据集基本信息

数据集名称：UnityVideo
关联研究：用于增强世界感知视频生成的统一多模态多任务学习
数据集地址：https://huggingface.co/datasets/JackAILab/OpenUni
许可证：Apache-2.0 license
状态：数据待发布（TODO List中包含“Release data”项）

数据集目的与功能

该数据集旨在支持一个统一的通用框架，用于多任务多模态视频理解，具体功能包括：

文本到视频生成：根据文本描述创建高质量视频。
可控生成：通过多种模态对视频生成进行细粒度控制。
模态估计：从视频中估计深度、法线和其他模态。
零样本泛化：无需额外训练即可对新物体和风格具有强大的泛化能力。

核心特点

统一框架：单一模型处理多个视频理解任务。
多模态支持：无缝处理文本、图像和视频输入。
世界感知生成：增强的物理理解和一致性。
灵活控制：支持各种控制信号（深度、边缘、姿态等）。
高质量输出：具有最先进的视觉质量和时间一致性。
高效训练：联合多任务学习提高了数据效率。

方法架构

UnityVideo采用统一的多模态多任务学习框架，包含：

多模态编码器：处理不同的输入模态（文本、图像、视频）。
统一Transformer主干：跨任务的共享表示学习。
任务特定头：用于不同生成和估计任务的专用解码器。
联合训练策略：跨所有任务同时进行优化。

引用信息

如需在研究中引用此工作，请使用以下BibTeX条目： bibtex @article{huang2024unityvideo, title={UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation}, author={Huang, Jiehui and Zhang, Yuechen and He, Xu and Gao, Yuan and Cen, Zhi and Xia, Bin and Zhou, Yan and Tao, Xin and Wan, Pengfei and Jia, Jiaya}, journal={arXiv preprint arXiv:2512.07831}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频生成领域，多模态数据的整合对于提升模型的世界感知能力至关重要。OpenUni数据集的构建采用了系统化的多源数据采集与模态提取流程，从互联网及人工收集的视频中，通过预训练模型自动提取深度、光流、分割掩码、密集姿态和骨骼五种模态的标注信息。为确保数据质量，实施了严格的过滤机制，包括时长、美学评分、分辨率筛选以及OCR文本检测，最终形成了包含130万样本的大规模统一多模态视频数据集，为联合训练提供了丰富的跨模态监督信号。

特点

OpenUni数据集的核心特点在于其多模态同步标注的全面性与规模性。该数据集涵盖了深度、光流、分割、骨骼和密集姿态五种互补的视觉子模态，每种模态均通过专用模型提取并经过质量过滤，确保了标注的可靠性。数据构成兼顾了人本场景与通用场景，包含单人多模态视频、多人交互视频以及来自Koala36M和OpenS2V等公开数据源的样本，这种多样性有助于模型学习更全面的世界知识，并支持零样本泛化到未见过的物体与风格。

使用方法

OpenUni数据集专为支持多任务多模态联合训练而设计，主要用于训练如UnityVideo之类的统一视频生成与理解框架。在使用时，数据集支持三种训练范式的动态路由：以辅助模态为条件的视频生成、从RGB视频估计辅助模态、以及从文本联合生成RGB与辅助模态。研究人员可通过概率性任务选择，在单个训练周期内实现跨任务协同优化。此外，数据集配套的UniBench评估基准，包含合成与真实视频，为统一模型的性能提供了公平、全面的评估基础。

背景与挑战

背景概述

OpenUni数据集由香港科技大学、清华大学及快手Kling团队的研究人员于2025年提出，作为UnityVideo框架的核心数据支撑，旨在推动多模态视频生成与理解的前沿研究。该数据集聚焦于增强视频生成模型的世界感知能力，通过整合RGB视频与五种辅助模态——深度图、光流、分割掩码、人体骨架及DensePose——构建了规模达130万样本的大规模统一多模态资源。其核心研究问题在于解决现有视频生成模型因单一模态训练而导致的跨模态交互不足与物理世界理解局限，通过联合优化多任务学习范式，显著提升了模型的零样本泛化性能与物理规律遵循能力，为构建更全面的世界模型奠定了数据基础。

当前挑战

OpenUni数据集致力于解决多模态视频生成领域的关键挑战，即在单一框架内统一处理文本到视频生成、可控生成与模态估计等多重任务，以增强模型对物理世界的整体感知。构建过程中的主要挑战包括：首先，数据采集与标注需协调多种异构模态，确保深度、光流、姿态等辅助信息与RGB视频的时空对齐，这对标注工具的质量与效率提出了极高要求；其次，模态间的异质性导致训练范式难以统一，需设计动态噪声调度等创新方法以平衡不同任务的学习目标；此外，数据规模的扩展需兼顾质量过滤与多样性，避免模型过拟合于特定场景或模态，从而保障零样本泛化到未见过的物体与风格的能力。

常用场景

经典使用场景

在视频生成与理解领域，多模态数据的联合建模已成为提升世界感知能力的关键路径。OpenUni数据集作为UnityVideo框架的核心训练资源，其最经典的使用场景在于支持统一的多模态多任务学习范式。该数据集汇集了光学流、深度图、密集姿态、骨架和分割掩码五种视觉子模态，与RGB视频构成对齐的样本对，使得模型能够通过动态噪声调度和模态自适应切换，在单一架构中同步优化文本到视频生成、可控生成与模态估计三大任务。这种整合不仅加速了模型收敛，更通过跨模态交互增强了物理动态推理能力，为构建具备零样本泛化性能的世界感知视频模型奠定了数据基础。

衍生相关工作

OpenUni数据集的发布催生了一系列围绕多模态统一学习的前沿研究。在架构设计方面，衍生出如模态自适应切换器、上下文学习器等轻量级模块，以高效处理异构模态信号。在训练策略上，动态噪声调度与课程学习机制被广泛采纳，以平衡多任务优化过程。同时，该数据集也为后续基准评估体系（如UniBench）的构建提供了数据基础，促进了视频生成、估计与分割任务的标准化评测。这些工作共同推动了视频基础模型向统一、可扩展的世界感知系统演进，为下一代通用视觉智能的发展开辟了新的研究方向。

数据集最近研究