openvid-hd-wan-latents-81frames

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/Enderfga/openvid-hd-wan-latents-81frames

下载链接

链接失效反馈

官方服务：

资源简介：

OpenVid-1M是一个包含超过1百万个样本的文本到视频数据集，适用于视频生成模型和文本到视频扩散模型的训练。数据集以英文为主要语言，并包含用于生成视频的提示信息。

创建时间：

2025-05-26

原始信息汇总

OpenVid HD Latents数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 文本到视频(text-to-video)
语言: 英语(en)
标签: 文本到视频、视频生成模型训练、文本到视频扩散模型训练、提示词
数据集名称: OpenVid-1M
数据规模: 100万到1000万之间(1M<n<10M)

数据集详情

源数据集: Enderfga/openvid-hd (~433k视频)
生成数据集: Enderfga/openvid-hd-wan-latents-81frames (~270k潜在表示)
VAE模型: Alibaba的Wan2.1 VAE
帧数: 每视频81帧(21个时间潜在维度×~3.86帧压缩比)
目标FPS: 解码视频为16fps
视频时长: 每视频约5.06秒

源数据集信息

基于OpenVid-1M数据集构建，该数据集是ICLR 2025论文中提出的大规模高质量文本到视频数据集。

关键特征:

高美学质量和视觉清晰度
详细、富有表现力的字幕
1080p分辨率视频
涵盖各种场景和相机运动的多样化内容
相比其他大规模视频数据集具有更好的时间一致性

提取过程

视频加载: 使用decord库精确采样帧
预处理:
- 调整大小和中心裁剪至目标分辨率
- 使用mean=[0.5,0.5,0.5]和std=[0.5,0.5,0.5]归一化至[-1,1]范围
- 采样至16FPS目标帧率
VAE编码: 通过Wan-VAE编码器编码至潜在空间
质量过滤: 仅保留宽高比≥1.7且帧数准确的视频
存储: 潜在表示保存为.pth文件

许可证

遵循原始OpenVid-1M数据集(CC-BY-4.0)和Wan2.1模型(Apache 2.0)的许可条款。

致谢

OpenVid-1M团队创建高质量源数据集
阿里巴巴Wan2.1团队开发先进VAE架构
Diffusers库提供便捷的VAE模型访问

搜集汇总

数据集介绍

构建方式

在视频生成模型研究领域，高质量潜空间表征的构建对提升生成效果至关重要。本数据集基于OpenVid HD视频库，通过分布式处理流程对43.3万条1080p视频进行标准化预处理：采用decord库进行帧采样，将视频统一调整为16帧率并中心裁剪至目标分辨率，随后通过阿里巴巴Wan2.1视频生成套件中的VAE编码器将像素空间映射至潜空间。经过严格的质量筛选，仅保留宽高比≥1.7且帧数精确匹配的视频，最终生成包含21个时间维度潜变量的序列，以.pth格式存储潜表征与文本嵌入向量。

使用方法

针对视频生成模型的训练需求，该数据集支持端到端的潜空间学习流程。研究人员可通过加载.pth文件直接获取潜变量张量与对应文本嵌入，其中潜变量维度为[81, 4, 64, 64]适用于扩散模型的时间序列建模。使用时需注意遵循CC-BY-4.0与Apache 2.0双许可协议，建议搭配Wan2.1 VAE解码器实现潜空间到像素空间的重建。对于需要高质量文本引导的应用场景，可优先选用经过Tarsier2模型重新标注的增强版本数据集以优化生成效果。

背景与挑战

背景概述

随着生成式人工智能在视频领域的快速发展，高质量文本到视频生成模型成为研究热点。OpenVid HD潜在表示数据集应运而生，由研究团队基于ICLR 2025会议论文《OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation》提出的OpenVid-1M数据集构建而成。该数据集精选43.3万段1080p高清视频，通过阿里巴巴Wan2.1视频生成套件中的变分自编码器进行潜在空间编码，每段视频包含81帧时序潜在特征。其核心价值在于为视频生成模型训练提供经过预处理的潜在表示，显著提升模型训练效率与生成质量，推动文本引导视频合成技术的前沿探索。

当前挑战

文本到视频生成领域面临时序一致性与语义对齐的双重挑战，需要模型在长序列生成中保持视觉连贯性并准确反映文本描述。数据集构建过程中，研究团队需攻克视频质量筛选、帧率标准化与潜在空间编码的技术难题，特别是确保21维时序潜在特征能完整保留原始视频的动态信息。此外，通过Tarsier2-Recap-7b模型对提示词嵌入进行优化，解决了原始描述文本与视觉内容匹配度不足的问题，但如何平衡编码效率与信息保真度仍是持续优化的关键。

常用场景

经典使用场景

在视频生成模型的研究领域，OpenVid HD潜在表示数据集为文本到视频生成任务提供了高质量的预编码特征。该数据集通过Wan2.1 VAE编码器将原始视频压缩为潜在空间表示，显著降低了计算复杂度，同时保留了视频的时空一致性。研究人员可直接利用这些潜在特征训练扩散模型或其他生成架构，无需重复进行耗时的视频编码步骤，从而加速模型迭代与实验进程。

解决学术问题

该数据集有效解决了大规模视频生成研究中数据预处理效率低下与计算资源消耗过高的问题。通过提供标准化的潜在表示，它消除了不同模型在特征提取阶段的差异性，为公平比较算法性能奠定了基础。其高质量的标注与时空一致性保障了生成视频的视觉保真度，推动了文本到视频生成技术在长序列生成、动态场景建模等核心难题上的突破。

实际应用

在实际应用层面，该数据集支撑了短视频内容自动生成、动态广告制作等场景的开发。基于潜在表示的生成模型能够快速响应文本指令，生成符合商业需求的高清视频片段，显著降低人工制作成本。在教育、娱乐等领域，此类技术还可用于生成教学演示动画或个性化动态内容，展现出广泛的产业化潜力。

数据集最近研究