SynVid

Name: SynVid
Creator: 北京航空航天大学, 上海人工智能实验室, 香港大学
Published: 2025-03-25 16:52:07
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/Tencent/HunyuanVideo

下载链接

链接失效反馈

官方服务：

资源简介：

SynVid是一个合成的视频数据集，由北京航空航天大学、上海人工智能实验室和香港大学共同创建。该数据集包含110000条高质量合成视频、去噪轨迹和对应的细粒度文本提示。SynVid利用教师模型生成高质量合成视频和去噪轨迹，确保了数据点的有效性和意义性。数据集的创建过程是基于教师模型在潜在空间中的操作，并通过精心设计的生成过程来生成。SynVid的应用领域主要是加速视频生成模型，解决视频生成过程中的速度和效率问题。

SynVid is a synthetic video dataset jointly created by Beihang University, Shanghai AI Laboratory, and The University of Hong Kong. This dataset contains 110,000 high-quality synthetic videos, denoising trajectories, and corresponding fine-grained text prompts. SynVid leverages teacher models to generate high-quality synthetic videos and denoising trajectories, ensuring the validity and meaningfulness of each data point. The dataset is constructed based on the operations of teacher models in the latent space, with the generation process carefully designed. The primary application scenario of SynVid is to accelerate video generation models, addressing the speed and efficiency issues encountered during video generation.

提供机构：

北京航空航天大学, 上海人工智能实验室, 香港大学

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

SynVid数据集的构建依托于预训练的视频扩散模型HunyuanVideo，通过精心设计的流程生成高质量的合成视频与去噪轨迹。研究团队采用InternVL2.5多模态大语言模型对真实视频进行细粒度文本标注，形成包含11万条去噪轨迹、对应视频及文本提示的数据库。每个数据点均为通向正确输出的中间结果，通过逆向扩散公式迭代求解轨迹节点，并利用变分自编码器解码生成最终视频。该构建方法避免了传统蒸馏过程中无效数据点的干扰，显著提升了数据有效性。

特点

SynVid数据集的核心特征体现在三个方面：其文本提示系统通过细粒度描述（平均长度100-150词）精确涵盖人物动作、物体细节及场景氛围；时空维度上提供68×120×24至90×160×33的多分辨率潜在编码，支持不同规模模型的训练需求；独特的去噪轨迹记录功能完整保留了扩散过程中各时间步的中间状态，为轨迹引导学习提供结构化监督信号。这些特性使其在视频生成质量、语义对齐度和训练效率方面显著优于传统视频数据集。

使用方法

该数据集主要应用于视频扩散模型的加速蒸馏研究。使用流程分为三个阶段：首先通过轨迹基少步引导策略，从去噪轨迹中选取关键时间节点构建噪声-视频的缩短映射路径；随后采用对抗训练策略，利用数据集隐含的各时间步数据分布信息对齐学生模型输出；最终结合8块A100显卡的分布式训练架构，可在12天内完成720×1280分辨率视频生成模型的蒸馏。实验表明该方法能实现8.5倍的生成加速，同时保持与教师模型相当的生成质量。

背景与挑战

背景概述

SynVid数据集由上海人工智能实验室（Shanghai AI Laboratory）与北京航空航天大学（Beihang University）等机构的研究团队于2025年提出，旨在解决视频扩散模型生成速度缓慢的核心问题。该数据集包含11万条由HunyuanVideo模型生成的去噪轨迹与高质量合成视频，其创新性地利用预训练模型的中间生成结果作为有效数据点，显著提升了知识蒸馏效率。作为首个面向视频扩散加速任务的合成数据集，SynVid通过精细的文本提示标注和对抗训练策略，在保持生成质量的同时实现8.5倍的加速效果，为实时视频生成领域提供了关键基础设施。

当前挑战

视频扩散模型加速面临双重挑战：在领域层面，传统方法因时空复杂性导致生成速度受限，如HunyuanVideo需3234秒生成5秒视频；在构建层面，数据集不匹配与高斯噪声偏移会产生无效数据点，影响蒸馏效果。SynVid通过轨迹基蒸馏策略解决前者，采用对抗训练对齐数据分布应对后者，但高分辨率视频的VAE编解码效率与Transformer块计算开销仍是待突破的瓶颈。

常用场景

经典使用场景

SynVid数据集在视频生成领域具有广泛的应用，特别是在加速视频扩散模型的研究中。通过利用预训练的视频扩散模型生成高质量的合成视频和去噪轨迹，SynVid为模型蒸馏提供了有效的训练数据。其经典使用场景包括文本到视频生成、视频质量提升以及视频生成速度的优化。数据集中的去噪轨迹和高质量视频为研究人员提供了丰富的实验材料，帮助他们在视频生成任务中实现更高的效率和更好的效果。

实际应用

在实际应用中，SynVid数据集被广泛用于视频内容创作、电影制作和视频游戏开发等领域。其高效的生成能力和高质量的输出使得它成为娱乐和媒体行业的重要工具。例如，在文本到视频生成任务中，SynVid能够快速生成符合文本描述的高清视频，极大地提升了内容创作的效率和质量。此外，数据集还可用于定制化媒体生成，满足不同用户的个性化需求。

衍生相关工作

SynVid数据集的推出催生了一系列相关研究工作，特别是在视频扩散模型的加速和优化方面。例如，基于SynVid的AccVideo方法通过轨迹引导和对抗训练策略，显著提升了视频生成的速度和质量。此外，数据集还被用于研究高效的模型架构和高压缩率的变分自编码器，进一步推动了视频生成技术的发展。这些衍生工作不仅扩展了SynVid的应用范围，还为视频生成领域的未来研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集