PusaV1_training

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/RaphaelLiu/PusaV1_training

下载链接

链接失效反馈

官方服务：

资源简介：

Pusa-V1.0训练数据集包含3860个高质量的视频-文本嵌入对，用于训练Pusa-V1.0视频生成模型。这个数据集是从Vbench2.0中生成的视频，通过预编码的视频潜藏和文本嵌入文件组织，并包含了相应的文本提示信息。

创建时间：

2025-07-15

原始信息汇总

PusaV1.0 训练数据集概述

基本信息

许可证: Apache-2.0
任务类别: 图像到视频（image-to-video）
数据规模: 1K<n<10K
配置:
- 默认配置:
  - 训练集文件:
    - train/video_000001.mp4
    - train/video_000100.mp4
    - train/video_000200.mp4
    - train/video_000300.mp4
    - train/video_000400.mp4
    - train/video_000500.mp4
    - train/video_000600.mp4
    - train/video_000700.mp4
    - train/video_000800.mp4
    - train/video_000900.mp4
    - train/video_001000.mp4

数据集概述

数据集名称: PusaV1.0 Training Dataset
用途: 训练Pusa-V1.0视频生成模型
特点:
- 包含3,860个高质量视频-字幕对
- 数据来源于Vbench2.0，由Wan-T2V-14B生成
- 通过Vectorized Timestep Adaptation (VTA)微调，Pusa-V1.0实现了零样本能力

数据集结构

PusaV1_training/ ├── train/ │ ├── video_000001.mp4 │ ├── video_000001.mp4.tensors.pth │ └── ... └── metadata.csv

train/: 包含预编码的视频潜在表示和文本嵌入（.tensors.pth）以及源视频文件（.mp4）
metadata.csv: 包含每个视频的对应文本提示

数据集详情

总样本数: 3,860个视频-文本嵌入对
数据来源: Vbench2.0（https://huggingface.co/datasets/Vchitect/VBench-V2）
格式: 预编码的潜在表示（.pt文件），可直接用于训练
用途: 用于训练Pusa-V1.0模型

使用方法

下载数据集

bash huggingface-cli download RaphaelLiu/PusaV1_training --repo-type dataset --local-dir <path_to_dataset_directory>

解压数据集

bash cd <path_to_dataset_directory>/PusaV1_training bash unzip.sh

与Pusa-VidGen配合使用

官方代码库: https://github.com/Yaofang-Liu/Pusa-VidGen

创建自定义数据集

参考文档:
- Pusa-VidGen: https://github.com/Yaofang-Liu/Pusa-VidGen
- Diffsynth: https://github.com/modelscope/DiffSynth-Studio

引用

bibtex @article{liu2024redefining, title={Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach}, author={Liu, Yaofang and Ren, Yumeng and Cun, Xiaodong and Artola, Aitor and Liu, Yang and Zeng, Tieyong and Chan, Raymond H and Morel, Jean-michel}, journal={arXiv preprint arXiv:2410.03160}, year={2024} }

bibtex @misc{Liu2025pusa, title={Pusa: Thousands Timesteps Video Diffusion Model}, author={Yaofang Liu and Rui Liu}, year={2025}, url={https://github.com/Yaofang-Liu/Pusa-VidGen}, }

搜集汇总

数据集介绍

构建方式

在视频生成模型研究领域，PusaV1_training数据集通过精心筛选与处理构建而成。该数据集源自Vbench2.0基准测试中的高质量视频素材，原始视频由Wan-T2V-14B模型生成，经过专业编码处理形成3,860个视频-文本嵌入对。每个样本包含预编码的视频潜在表示（.tensors.pth文件）及对应的MP4源文件，并采用标准化目录结构存储，配套元数据文件完整记录各视频的文本描述信息。

使用方法

研究者可通过HuggingFace CLI工具便捷下载该数据集，解压后即获得标准化的训练素材。数据集目录包含预编码潜在表示和原始视频文件，配合提供的metadata.csv可快速建立视频-文本对应关系。为充分发挥数据集价值，官方推荐搭配Pusa-VidGen代码库使用，其中包含完整的模型训练流程实现。对于希望扩展数据集的研究者，可参考项目文档中的编码规范，将自定义视频转换为兼容的潜在表示格式进行增量训练。

背景与挑战

背景概述

PusaV1_training数据集由Yaofang Liu等人于2024年构建，旨在推动视频生成领域的技术进步。该数据集基于Vbench2.0的高质量视频-文本对，通过精细筛选与预处理，为Pusa-V1.0模型的训练提供了关键支持。Pusa-V1.0模型采用向量化时间步适应（VTA）技术，显著提升了图像到视频（I2V）生成任务的性能，同时保持了文本到视频（T2V）的基础能力。该数据集的发布不仅降低了视频生成模型的训练成本，还为相关研究提供了高质量的基准数据，对视频生成领域的发展具有重要影响。

当前挑战

PusaV1_training数据集在构建与应用过程中面临多重挑战。在领域问题方面，视频生成任务需解决时间一致性、内容多样性以及生成视频的视觉质量等核心问题，这对数据集的多样性与标注精度提出了极高要求。在构建过程中，数据预处理与编码的复杂性、视频与文本对的精准匹配以及大规模数据的高效存储与访问均是关键难点。此外，如何确保生成的视频在时间维度上的连贯性，同时兼顾内容多样性，也是数据集构建中需要克服的重要技术障碍。

常用场景

经典使用场景

在视频生成领域，PusaV1_training数据集作为高质量视频-文本对集合，主要应用于图像到视频（I2V）生成任务的研究与开发。该数据集通过预编码的视频潜变量和文本嵌入，为模型训练提供了高效的数据支持，显著提升了视频生成的连贯性和质量。其经典使用场景包括零样本图像到视频转换、视频扩展以及起始-结束帧生成，为研究者提供了丰富的实验基础。

解决学术问题

PusaV1_training数据集解决了视频生成领域中数据稀缺和训练成本高昂的学术难题。通过提供3860个高质量视频-文本对，该数据集显著降低了模型训练的数据需求，同时支持向量化时间步适应（VTA）技术的应用，使得模型在保留文本到视频生成能力的同时，实现了图像到视频任务的零样本迁移。这一突破为视频生成模型的轻量化与高效化提供了新的研究方向。

实际应用

在实际应用中，PusaV1_training数据集为视频内容创作、广告生成以及影视特效制作提供了强大的技术支持。基于该数据集训练的Pusa-V1.0模型能够快速生成高质量的视频内容，显著提升了创作效率。例如，在广告行业，该技术可用于快速生成产品演示视频；在影视制作中，则能辅助完成复杂的特效场景生成，大幅降低制作成本。

数据集最近研究