five

Vchitect T2V DataVerse|视频生成数据集|文本到视频数据集

收藏
arXiv2025-01-15 更新2025-01-17 收录
视频生成
文本到视频
下载链接:
https://github.com/Vchitect/LiteGen
下载链接
链接失效反馈
资源简介:
Vchitect T2V DataVerse是由南洋理工大学S实验室、上海人工智能实验室和香港中文大学联合开发的高质量视频数据集,包含100万条视频数据,旨在支持文本到视频生成任务。该数据集通过严格的注释和美学评估流程构建,确保文本与视频内容的高度对齐。数据集涵盖了多样化的高质量视频,增强了模型的训练和泛化能力。数据来源包括公开数据集如WebVid10M、Panda70M、Vimeo25M和InternVid,以及内部收集的100万条可控质量的视频。该数据集的应用领域主要集中在视频生成领域,旨在解决现有模型在长视频生成中的时间一致性和计算效率问题。
提供机构:
南洋理工大学S实验室,上海人工智能实验室,香港中文大学
创建时间:
2025-01-15
原始信息汇总

LiteGen 数据集概述

数据集简介

LiteGen 是一个轻量级且高效的训练加速框架,专门为扩散任务设计。该框架已在视频生成项目 Vchitech-2.0 中应用和验证。LiteGen 集成了多种训练优化技术,并提供了用户友好的接口,使研究人员和开发者能够轻松地从单 GPU 设置扩展到多节点、多 GPU 环境。

主要特性

  • VAE 支持
    • DP VAE
    • Sliced VAE
    • VAE.encode 编译
  • EMA 模型
    • 分片 EMA(指数移动平均)
  • 文本编码器
    • 分片文本编码器
  • 分布式优化
    • DDP
    • ZeRO1,2,3
    • 序列并行(Ulysses 实现,适用于 Vchitect-2.0 模型)
  • 内存优化
    • 梯度激活检查点
    • 选择性检查点

使用方法

快速开始指南

  1. 创建 LiteGen 实例: python from litegen import LiteGen gen = LiteGen(config)

  2. 初始化组件: python model, optimizer, text_encoder, dataloader, vae_encode = gen.initialize( model, # 可训练模型 optimizer, # 模型优化器 text_encoder, # 不可训练模型(如扩散任务中的编码器) dataset, # 数据集 vae.encode # 计算函数(如 VAE 编码) )

优化配置

  • DDP 或 ZeRO 优化
    • 通过 zero_degree 字段选择 DDP 或 ZeRO 阶段。
  • 选择性激活检查点
    • 通过 selective_ratio 配置选择性应用激活检查点。
  • 激活卸载
    • 通过 ac_offload 启用 CPU 卸载以节省 GPU 内存。
  • 序列并行
    • 通过 sp_size 配置序列并行度。
  • 分片编码器
    • 通过 encoder.fsdpencoder.group 配置参数分片。
  • EMA 模型
    • 通过 ema.enableema.sharded 配置 EMA 模型及其分片。

性能

LiteGen 实现了序列并行和激活卸载技术,有效减少了内存使用,并支持在长序列上进行扩散任务的训练。在 NVIDIA A100 GPU 上进行的测试表明,LiteGen 支持在 8x NVIDIA A100 GPU 上训练长达 163 万个令牌的序列,相当于 760x460 分辨率的 150 秒视频。

许可证

LiteGen 采用 Apache-2.0 许可证,完全开放用于学术研究,并允许免费商业使用。如需申请商业许可证或有其他问题或合作,请联系 yangzhenyu@pjlab.org.cn。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Vchitect T2V DataVerse的构建过程始于原始视频的收集,随后通过镜头分割算法将长视频分割为较短的片段。接着,事件拼接阶段将相关片段合并,确保叙事的连贯性。静态视频过滤阶段则剔除缺乏显著运动的片段,确保数据集专注于动态内容。随后,通过美学评估模块对视频片段进行视觉质量评分,动态估计模块分析视频中的运动模式。同时,视频字幕生成模块为每个片段生成详细的文本描述,水印分类器用于检测视频中的水印,文本定位模块则识别视频中的文字区域。最终,经过这些步骤的高质量标注视频片段构成了Vchitect T2V DataVerse。
特点
Vchitect T2V DataVerse的特点在于其高质量和多样性。该数据集通过严格的美学评估和动态估计,确保了视频片段的高视觉质量和运动连贯性。此外,数据集涵盖了广泛的视频内容,包括创意、场景和电视节目等类别,且分辨率高达4K。通过详细的字幕生成和文本定位,数据集确保了文本与视频内容的高度对齐,支持复杂的文本到视频生成任务。相比现有公开数据集,Vchitect T2V DataVerse在美学评分和视频时长上均有显著提升,为模型训练提供了更丰富和高质量的数据支持。
使用方法
Vchitect T2V DataVerse主要用于训练和评估文本到视频生成模型。研究人员可以通过该数据集训练模型,生成与文本描述高度一致且具有时间连贯性的视频。数据集中的高质量视频片段和详细字幕为模型提供了丰富的训练样本,帮助模型学习如何从文本生成高保真度的视频。此外,数据集还可用于评估生成视频的质量,特别是在时间一致性、空间保真度和美学质量等方面。通过结合Vchitect-2.0模型,该数据集能够显著提升模型的训练效率和生成视频的质量,为文本到视频生成领域的研究提供了强有力的支持。
背景与挑战
背景概述
Vchitect T2V DataVerse 是由上海人工智能实验室和南洋理工大学的研究团队于2021年提出的一个大规模文本到视频生成数据集。该数据集旨在解决视频生成领域中的关键问题,即如何从文本描述生成高质量、时间连贯的视频。Vchitect T2V DataVerse 的构建基于多模态扩散模型(Diffusion Models),并通过严格的注释和美学评估流程,确保了数据的高质量和多样性。该数据集的推出显著提升了文本到视频生成模型的训练和泛化能力,推动了视频生成领域的研究进展。
当前挑战
Vchitect T2V DataVerse 面临的挑战主要包括两个方面。首先,视频生成领域本身存在时间一致性、空间保真度和计算效率等问题。生成视频不仅需要单帧的高质量,还需要帧与帧之间的平滑过渡,这对模型的动态建模能力提出了极高要求。其次,数据集的构建过程中也面临诸多挑战,包括如何从海量视频中筛选出高质量片段、如何确保文本与视频内容的高度对齐,以及如何处理视频中的水印和静态帧等问题。这些挑战需要通过复杂的预处理流程和严格的质量控制来解决,以确保数据集的多样性和代表性。
常用场景
经典使用场景
Vchitect T2V DataVerse 数据集在文本到视频生成领域具有广泛的应用,尤其是在基于扩散模型的视频生成任务中。该数据集通过高质量的视频标注和美学评估,确保了文本描述与生成视频帧之间的一致性,同时保持了时间上的连贯性。这使得该数据集成为训练大规模视频生成模型的理想选择,特别是在需要生成高保真度、语义丰富的视频时。
衍生相关工作
Vchitect T2V DataVerse 数据集衍生了许多相关的研究工作。基于该数据集,研究者们开发了多种先进的视频生成模型,如 Vchitect-2.0,该模型通过引入多模态扩散块和并行训练框架,显著提升了视频生成的质量和效率。此外,该数据集还启发了其他研究者在视频生成领域的工作,如基于扩散模型的视频生成、时间一致性建模等。这些工作进一步推动了文本到视频生成技术的发展,并为未来的研究提供了坚实的基础。
数据集最近研究
最新研究方向
近年来,随着生成模型在文本到图像(T2I)合成领域的显著进展,扩散模型因其通过迭代去噪过程生成高保真、语义丰富的图像而成为主流方法。基于这一成功,研究者们将扩散模型扩展到文本到视频(T2V)生成领域,旨在从文本描述中生成时间连贯且视觉吸引的视频。然而,视频生成面临独特的挑战,不仅需要在单个帧内保持高空间保真度,还需在序列间实现无缝的时间一致性。Vchitect T2V DataVerse的推出,为这一领域提供了高质量的大规模训练数据集,显著提升了模型的训练和泛化能力。当前的研究热点集中在如何通过并行化架构和内存优化技术,解决长视频序列生成中的计算和内存瓶颈问题,同时保持视频的时间一致性和空间细节。Vchitect-2.0通过引入多模态扩散块和混合并行化框架,成功实现了长视频的高效生成,并在视频质量、训练效率和可扩展性方面超越了现有方法,为未来的视频生成研究奠定了坚实基础。
相关研究论文
  • 1
    Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models南洋理工大学S实验室,上海人工智能实验室,香港中文大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录