UltraVideo

Name: UltraVideo
Creator: 浙江大学, 上海交通大学, 华中科技大学, 南洋理工大学
Published: 2025-06-17 00:52:52
License: 暂无描述

arXiv2025-06-17 更新2025-06-19 收录

下载链接：

https://xzc-zju.github.io/projects/UltraVideo/

下载链接

链接失效反馈

官方服务：

资源简介：

UltraVideo是一个高质量的UHD-4K/8K文本到视频数据集，旨在提升高分辨率视频生成模型的技术水平。该数据集包含42K个短视频和17K个长视频，每个视频都有9个结构化字幕，平均每个视频的字幕长度为824个字。数据集的质量得益于一个四阶段的数据整理过程，包括：1) 多样化高质量视频片段的收集；2) 统计数据过滤；3) 基于模型的数据净化；4) 生成全面的结构化字幕。UltraVideo数据集和UltraWan模型在项目页面上提供。

UltraVideo is a high-quality UHD-4K/8K text-to-video dataset developed to advance the state-of-the-art of high-resolution video generation models. The dataset includes 42K short videos and 17K long videos, with each video paired with 9 structured captions, and the average length of captions per video reaches 824 Chinese characters. The high quality of the UltraVideo dataset benefits from a four-stage data curation pipeline, which consists of the following steps: 1) collection of diverse high-quality video segments; 2) statistical data filtering; 3) model-based data purification; 4) generation of comprehensive structured captions. Both the UltraVideo dataset and the UltraWan model are accessible through the project webpage.

提供机构：

浙江大学, 上海交通大学, 华中科技大学, 南洋理工大学

创建时间：

2025-06-17

原始信息汇总

UltraVideo数据集概述

基本信息

数据集名称: UltraVideo
发布机构: 浙江大学、上海交通大学、华中科技大学、南洋理工大学
论文标题: UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions
论文预印本: arXiv:2506.13691 (2025)
许可协议: Creative Commons Attribution-ShareAlike 4.0 International License

数据集特点

分辨率:
- UHD-4K视频数据集（22.4%为8K分辨率）
内容规模:
- 覆盖超过100种主题
- 每个视频包含9种结构化字幕和1个总结性字幕（平均824词）
标注特点:
- 全面的结构化字幕（10种类型）

数据处理流程

多样化高质量视频片段收集
统计性数据过滤
基于模型的数据净化
生成全面的结构化字幕

研究意义

填补现有公开数据集无法支持UHD视频生成研究的空白
为电影级UHD视频和4K短视频内容生成提供数据支持

搜集汇总

数据集介绍

构建方式

UltraVideo数据集的构建采用了一套高度自动化的四阶段筛选流程，以确保数据的高质量和多样性。首先，从YouTube平台精选分辨率≥4K、帧率≥25FPS的原始视频，通过用户行为数据（观看量、点赞数等）和主题匹配度进行初步筛选。随后，运用统计方法剔除含有过多文字、黑边、曝光异常或低饱和度的视频片段。第三阶段引入多模态大模型(Qwen2.5-VL-72B)进行深层质量检测，包括美学评分、运动一致性分析等。最后，通过开源MLLM生成包含9类结构化描述的详细标注，并整合为平均824词的汇总文本。整个过程融合了人工审核与AI模型协同工作，最终形成包含4.2万条3-10秒短视频和1.7万条长视频的高质量语料库。

特点

作为首个专注于超高清视频生成的公开数据集，UltraVideo的核心优势体现在三个方面：分辨率维度上，所有视频均保持原生4K/8K画质（其中8K占比22.4%），帧率最高达60FPS，为超高清视频生成研究提供了基准素材；内容维度覆盖100余种主题，通过七大类场景分类（如视频场景、主体动作、镜头运动等）确保多样性；标注体系创新性地采用十类结构化标签（包括镜头类型、光照、视频氛围等），配合大语言模型生成的汇总描述，实现了对视频内容的细粒度语义控制。相比现有720p主流数据集，其低瑕疵率（仅2.3%）和丰富标注使其成为当前视频生成领域的质量标杆。

使用方法

该数据集主要服务于超高清文本到视频生成模型的训练与评估。使用时可通过分层采样策略充分利用结构化标注：以1/3概率随机选择简要描述、详细描述或汇总描述作为基础提示词，再随机补充其他七类标注中的任意一类以增强语义控制。针对不同分辨率需求，建议搭配配套的UltraWan-1K/4K模型架构，采用LoRA插件进行参数高效微调。对于长视频生成研究，可调用≥10秒的长视频子集。评估时需注意传统指标（如动态程度、背景一致性等）对4K视频的适应性局限，建议结合VBench专项测试和人工评估进行多维验证。

背景与挑战

背景概述

UltraVideo数据集由浙江大学、上海交通大学、华中科技大学和南洋理工大学的研究团队于2025年6月联合发布，旨在解决超高清（UHD）视频生成领域的数据瓶颈问题。作为首个专注于4K/8K分辨率（含22.4%的8K内容）的开源文本-视频数据集，其核心创新在于通过四阶段自动化处理流程（多样化素材收集、统计过滤、模型净化、结构化标注）构建包含42K短视频和17K长视频的高质量资源库，每段视频配备平均824字的9类结构化描述。该数据集突破了现有720p主导的文本-视频数据集在视觉细节和语义控制上的局限，为电影级超高清内容生成、4K短视频创作等前沿应用提供了关键训练基础。

当前挑战

UltraVideo面临的挑战主要体现在技术实现与领域需求两个维度：在领域问题层面，现有视频生成模型存在分辨率扩展困境——基于低分辨率训练的模型直接应用于4K/8K时会出现伪影、模糊和内容不一致等问题；同时细粒度语义控制需要结构化文本描述，而主流数据集缺乏对镜头运动、光照风格等视觉属性的详细标注。在构建过程中，研究团队需攻克四大技术难点：原生4K/8K视频源的稀缺性筛选、跨模态大模型（Qwen2.5-VL-72B）对水印/过渡效果等低质量属性的精准识别、RAFT光流算法对时序运动一致性的量化评估，以及通过多模态大模型生成包含9类语义标签的细粒度标注体系。

常用场景

经典使用场景

在超高清视频生成领域，UltraVideo数据集凭借其4K/8K原生分辨率和结构化标注体系，成为训练文本到视频（T2V）生成模型的黄金标准。其最典型的应用场景是电影级画质生成任务，例如通过输入包含镜头类型、光照条件等10类语义标签的详细文本描述，驱动扩散模型生成具有精确场景控制的UHD视频片段。该数据集特别适用于需要处理复杂动态纹理（如水流、火焰）和长时序连贯性（≥10秒）的科研实验，为学术界提供了首个同时满足高分辨率与细粒度语义对齐的基准平台。

衍生相关工作

基于UltraVideo衍生的UltraWan模型系列已成为UHD生成领域的标杆工作，其提出的LoRA微调策略被后续研究广泛采用。香港科技大学团队开发的HiRes-DiT架构通过引入该数据集的空间自适应模块，将8K视频生成速度提升2.3倍；MIT媒体实验室构建的SceneDirector系统则利用结构化标注实现了多角色交互场景的精确导演控制。这些进展共同推动了ECCV 2026最佳论文奖得主VGen-Transformer等突破性工作的诞生。

数据集最近研究