Vchitect T2V DataVerse
收藏arXiv2025-01-15 更新2025-01-17 收录
下载链接:
https://github.com/Vchitect/LiteGen
下载链接
链接失效反馈官方服务:
资源简介:
Vchitect T2V DataVerse是由南洋理工大学S实验室、上海人工智能实验室和香港中文大学联合开发的高质量视频数据集,包含100万条视频数据,旨在支持文本到视频生成任务。该数据集通过严格的注释和美学评估流程构建,确保文本与视频内容的高度对齐。数据集涵盖了多样化的高质量视频,增强了模型的训练和泛化能力。数据来源包括公开数据集如WebVid10M、Panda70M、Vimeo25M和InternVid,以及内部收集的100万条可控质量的视频。该数据集的应用领域主要集中在视频生成领域,旨在解决现有模型在长视频生成中的时间一致性和计算效率问题。
Vchitect T2V DataVerse is a high-quality video dataset jointly developed by S-Lab of Nanyang Technological University, Shanghai AI Laboratory, and The Chinese University of Hong Kong. Comprising 1 million video clips, it is designed to support text-to-video generation tasks. This dataset is constructed via rigorous annotation and aesthetic evaluation workflows to ensure high alignment between textual descriptions and corresponding video content. It covers a diverse range of high-quality videos, which enhances model training and generalization capabilities. Its data sources include public datasets such as WebVid10M, Panda70M, Vimeo25M, and InternVid, as well as 1 million internally collected videos with controllable quality. This dataset is primarily focused on the video generation domain, aiming to address the temporal consistency and computational efficiency issues of existing models in long video generation.
提供机构:
南洋理工大学S实验室,上海人工智能实验室,香港中文大学
创建时间:
2025-01-15
原始信息汇总
LiteGen 数据集概述
数据集简介
LiteGen 是一个轻量级且高效的训练加速框架,专门为扩散任务设计。该框架已在视频生成项目 Vchitech-2.0 中应用和验证。LiteGen 集成了多种训练优化技术,并提供了用户友好的接口,使研究人员和开发者能够轻松地从单 GPU 设置扩展到多节点、多 GPU 环境。
主要特性
- VAE 支持:
- DP VAE
- Sliced VAE
- VAE.encode 编译
- EMA 模型:
- 分片 EMA(指数移动平均)
- 文本编码器:
- 分片文本编码器
- 分布式优化:
- DDP
- ZeRO1,2,3
- 序列并行(Ulysses 实现,适用于 Vchitect-2.0 模型)
- 内存优化:
- 梯度激活检查点
- 选择性检查点
使用方法
快速开始指南
-
创建 LiteGen 实例: python from litegen import LiteGen gen = LiteGen(config)
-
初始化组件: python model, optimizer, text_encoder, dataloader, vae_encode = gen.initialize( model, # 可训练模型 optimizer, # 模型优化器 text_encoder, # 不可训练模型(如扩散任务中的编码器) dataset, # 数据集 vae.encode # 计算函数(如 VAE 编码) )
优化配置
- DDP 或 ZeRO 优化:
- 通过
zero_degree字段选择 DDP 或 ZeRO 阶段。
- 通过
- 选择性激活检查点:
- 通过
selective_ratio配置选择性应用激活检查点。
- 通过
- 激活卸载:
- 通过
ac_offload启用 CPU 卸载以节省 GPU 内存。
- 通过
- 序列并行:
- 通过
sp_size配置序列并行度。
- 通过
- 分片编码器:
- 通过
encoder.fsdp和encoder.group配置参数分片。
- 通过
- EMA 模型:
- 通过
ema.enable和ema.sharded配置 EMA 模型及其分片。
- 通过
性能
LiteGen 实现了序列并行和激活卸载技术,有效减少了内存使用,并支持在长序列上进行扩散任务的训练。在 NVIDIA A100 GPU 上进行的测试表明,LiteGen 支持在 8x NVIDIA A100 GPU 上训练长达 163 万个令牌的序列,相当于 760x460 分辨率的 150 秒视频。
许可证
LiteGen 采用 Apache-2.0 许可证,完全开放用于学术研究,并允许免费商业使用。如需申请商业许可证或有其他问题或合作,请联系 yangzhenyu@pjlab.org.cn。
搜集汇总
数据集介绍

构建方式
Vchitect T2V DataVerse的构建过程始于原始视频的收集,随后通过镜头分割算法将长视频分割为较短的片段。接着,事件拼接阶段将相关片段合并,确保叙事的连贯性。静态视频过滤阶段则剔除缺乏显著运动的片段,确保数据集专注于动态内容。随后,通过美学评估模块对视频片段进行视觉质量评分,动态估计模块分析视频中的运动模式。同时,视频字幕生成模块为每个片段生成详细的文本描述,水印分类器用于检测视频中的水印,文本定位模块则识别视频中的文字区域。最终,经过这些步骤的高质量标注视频片段构成了Vchitect T2V DataVerse。
特点
Vchitect T2V DataVerse的特点在于其高质量和多样性。该数据集通过严格的美学评估和动态估计,确保了视频片段的高视觉质量和运动连贯性。此外,数据集涵盖了广泛的视频内容,包括创意、场景和电视节目等类别,且分辨率高达4K。通过详细的字幕生成和文本定位,数据集确保了文本与视频内容的高度对齐,支持复杂的文本到视频生成任务。相比现有公开数据集,Vchitect T2V DataVerse在美学评分和视频时长上均有显著提升,为模型训练提供了更丰富和高质量的数据支持。
使用方法
Vchitect T2V DataVerse主要用于训练和评估文本到视频生成模型。研究人员可以通过该数据集训练模型,生成与文本描述高度一致且具有时间连贯性的视频。数据集中的高质量视频片段和详细字幕为模型提供了丰富的训练样本,帮助模型学习如何从文本生成高保真度的视频。此外,数据集还可用于评估生成视频的质量,特别是在时间一致性、空间保真度和美学质量等方面。通过结合Vchitect-2.0模型,该数据集能够显著提升模型的训练效率和生成视频的质量,为文本到视频生成领域的研究提供了强有力的支持。
背景与挑战
背景概述
Vchitect T2V DataVerse 是由上海人工智能实验室和南洋理工大学的研究团队于2021年提出的一个大规模文本到视频生成数据集。该数据集旨在解决视频生成领域中的关键问题,即如何从文本描述生成高质量、时间连贯的视频。Vchitect T2V DataVerse 的构建基于多模态扩散模型(Diffusion Models),并通过严格的注释和美学评估流程,确保了数据的高质量和多样性。该数据集的推出显著提升了文本到视频生成模型的训练和泛化能力,推动了视频生成领域的研究进展。
当前挑战
Vchitect T2V DataVerse 面临的挑战主要包括两个方面。首先,视频生成领域本身存在时间一致性、空间保真度和计算效率等问题。生成视频不仅需要单帧的高质量,还需要帧与帧之间的平滑过渡,这对模型的动态建模能力提出了极高要求。其次,数据集的构建过程中也面临诸多挑战,包括如何从海量视频中筛选出高质量片段、如何确保文本与视频内容的高度对齐,以及如何处理视频中的水印和静态帧等问题。这些挑战需要通过复杂的预处理流程和严格的质量控制来解决,以确保数据集的多样性和代表性。
常用场景
经典使用场景
Vchitect T2V DataVerse 数据集在文本到视频生成领域具有广泛的应用,尤其是在基于扩散模型的视频生成任务中。该数据集通过高质量的视频标注和美学评估,确保了文本描述与生成视频帧之间的一致性,同时保持了时间上的连贯性。这使得该数据集成为训练大规模视频生成模型的理想选择,特别是在需要生成高保真度、语义丰富的视频时。
衍生相关工作
Vchitect T2V DataVerse 数据集衍生了许多相关的研究工作。基于该数据集,研究者们开发了多种先进的视频生成模型,如 Vchitect-2.0,该模型通过引入多模态扩散块和并行训练框架,显著提升了视频生成的质量和效率。此外,该数据集还启发了其他研究者在视频生成领域的工作,如基于扩散模型的视频生成、时间一致性建模等。这些工作进一步推动了文本到视频生成技术的发展,并为未来的研究提供了坚实的基础。
数据集最近研究
最新研究方向
近年来,随着生成模型在文本到图像(T2I)合成领域的显著进展,扩散模型因其通过迭代去噪过程生成高保真、语义丰富的图像而成为主流方法。基于这一成功,研究者们将扩散模型扩展到文本到视频(T2V)生成领域,旨在从文本描述中生成时间连贯且视觉吸引的视频。然而,视频生成面临独特的挑战,不仅需要在单个帧内保持高空间保真度,还需在序列间实现无缝的时间一致性。Vchitect T2V DataVerse的推出,为这一领域提供了高质量的大规模训练数据集,显著提升了模型的训练和泛化能力。当前的研究热点集中在如何通过并行化架构和内存优化技术,解决长视频序列生成中的计算和内存瓶颈问题,同时保持视频的时间一致性和空间细节。Vchitect-2.0通过引入多模态扩散块和混合并行化框架,成功实现了长视频的高效生成,并在视频质量、训练效率和可扩展性方面超越了现有方法,为未来的视频生成研究奠定了坚实基础。
相关研究论文
- 1Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models南洋理工大学S实验室,上海人工智能实验室,香港中文大学 · 2025年
以上内容由遇见数据集搜集并总结生成



