Wan2.2-Syn-121x704x1280_32k

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/FastVideo/Wan2.2-Syn-121x704x1280_32k

下载链接

链接失效反馈

官方服务：

资源简介：

FastVideo合成Wan2.2 720P数据集是一个用于Text-to-Video任务的数据集，包含了使用Wan2.2-TI2V-5B-Diffusers模型生成的121帧，每帧大小为704×1280的预处理latents和第一帧图像。该数据集可以直接与FastVideo库配合使用，无需额外预处理。

创建时间：

2025-08-04

原始信息汇总

FastVideo Synthetic Wan2.2 720P数据集概述

基本信息

许可证: Apache-2.0
数据规模: 10K<n<100K
任务类别: 文本到视频（Text-to-Video）
库名称: fastvideo
标签: fastvideo, synthetic, video-diffusion

数据集简介

摘要: 该数据集用于支持视频扩散变换器（DiTs）的高效稀疏注意力（VSA）研究，通过减少训练FLOPS和加速生成时间，提升视频扩散模型的扩展性。
数据来源: 提示词随机采样自Vchitect_T2V_DataVerse数据集。
生成模型: 使用Wan2.2-TI2V-5B-Diffusers模型生成样本并存储潜在表示。
分辨率: 每个潜在样本包含121帧，每帧尺寸为704×1280。
预处理: 包含所有文本到视频（T2V）任务所需的预处理潜在表示（包括首帧图像）。

使用说明

兼容性: 与FastVideo仓库完全兼容，可直接加载使用，无需额外预处理。
下载命令: bash git lfs install git clone https://huggingface.co/datasets/FastVideo/Wan2.2-Syn-121x704x1280_32k

引用

如果使用该数据集，请引用以下论文： bibtex @article{zhang2025vsa, title={VSA: Faster Video Diffusion with Trainable Sparse Attention}, author={Zhang, Peiyuan and Huang, Haofeng and Chen, Yongqi and Lin, Will and Liu, Zhengzhong and Stoica, Ion and Xing, Eric and Zhang, Hao}, journal={arXiv preprint arXiv:2505.13389}, year={2025} } @article{zhang2025fast, title={Fast video generation with sliding tile attention}, author={Zhang, Peiyuan and Chen, Yongqi and Su, Runlong and Ding, Hangliang and Stoica, Ion and Liu, Zhengzhong and Zhang, Hao}, journal={arXiv preprint arXiv:2502.04507}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频生成领域，高质量数据集的构建对模型性能具有决定性影响。Wan2.2-Syn-121x704x1280_32k数据集通过系统化流程构建：从Vchitect_T2V_DataVerse数据集中随机采样文本提示，采用Wan2.2-TI2V-5B-Diffusers模型生成视频潜变量，最终形成包含121帧、分辨率达704×1280的标准化样本。所有潜变量均经过预处理，确保与FastVideo框架无缝兼容，为文本到视频任务提供即用型数据支持。

使用方法

实际应用场景中，该数据集展现出卓越的工程友好性。用户仅需安装Git LFS工具并通过简单命令克隆仓库，即可获取完整的预处理数据集。数据集与FastVideo代码库深度集成，研究者可参照项目文档直接加载数据用于模型训练或微调。这种开箱即用的特性大幅降低了视频生成研究的入门门槛，使得研究者能够将精力集中于模型创新而非数据预处理。数据集的技术文档详细说明了与不同规模模型的兼容性配置，确保从实验到生产的平滑过渡。

背景与挑战

背景概述

Wan2.2-Syn-121x704x1280_32k数据集由FastVideo团队于2025年构建，旨在推动视频扩散变换器（DiTs）在文本到视频（T2V）生成任务中的研究与应用。该数据集基于Wan2.2-TI2V-5B-Diffusers模型生成，包含121帧、分辨率为704×1280的潜变量样本，为视频生成领域提供了高质量的合成数据资源。其核心研究问题聚焦于通过可训练的稀疏注意力机制（VSA）优化视频扩散模型的训练效率，显著降低了计算复杂度，同时保持了生成质量。该数据集的发布为视频生成模型的规模化训练提供了重要支撑，推动了相关算法在效率与性能上的突破。

当前挑战

在视频生成领域，高分辨率、长序列视频的建模一直面临计算复杂度高和内存消耗大的挑战。Wan2.2-Syn-121x704x1280_32k数据集针对这些问题，通过稀疏注意力机制优化了传统三维注意力机制的二次复杂度问题。然而，构建过程中仍需解决多帧一致性保持、潜变量空间优化以及大规模合成数据的质量控制等难题。此外，如何确保生成视频的多样性与真实性之间的平衡，以及适配不同硬件环境下的高效计算，仍是该数据集应用中的关键挑战。

常用场景

经典使用场景

在视频生成领域，Wan2.2-Syn-121x704x1280_32k数据集作为高分辨率文本到视频（T2V）任务的基准数据集，被广泛用于评估和优化视频扩散模型的性能。其121帧704×1280分辨率的样本结构，为研究者提供了丰富的时序和空间信息，特别适合探究长序列视频生成中的注意力机制优化问题。数据集与FastVideo框架的无缝兼容性，使其成为训练端到端视频生成系统的理想选择。

解决学术问题

该数据集通过提供大规模预处理潜变量样本，有效解决了视频扩散模型训练中的计算效率瓶颈问题。其采用的VSA（可训练稀疏注意力）机制突破传统3D注意力的二次复杂度限制，在保持85%模型FLOPs利用率的同时，将训练计算量降低2.53倍。这一创新为视频生成领域的模型缩放研究提供了实证基础，使得构建参数规模超过1.4B的扩散模型成为可能。

实际应用

在影视特效预可视化、广告内容自动生成等工业场景中，该数据集支撑的FastVideo系统展现出显著优势。实际测试表明，基于Wan2.2模型的系统将视频生成时间从31秒缩短至18秒，同时保持画面质量的一致性。这种高效能特性使其特别适用于需要快速迭代的多媒体内容生产流水线。

数据集最近研究