PusaV1_training
收藏PusaV1.0 训练数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 图像到视频(image-to-video)
- 数据规模: 1K<n<10K
- 配置:
- 默认配置:
- 训练集文件:
- train/video_000001.mp4
- train/video_000100.mp4
- train/video_000200.mp4
- train/video_000300.mp4
- train/video_000400.mp4
- train/video_000500.mp4
- train/video_000600.mp4
- train/video_000700.mp4
- train/video_000800.mp4
- train/video_000900.mp4
- train/video_001000.mp4
- 训练集文件:
- 默认配置:
数据集概述
- 数据集名称: PusaV1.0 Training Dataset
- 用途: 训练Pusa-V1.0视频生成模型
- 特点:
- 包含3,860个高质量视频-字幕对
- 数据来源于Vbench2.0,由Wan-T2V-14B生成
- 通过Vectorized Timestep Adaptation (VTA)微调,Pusa-V1.0实现了零样本能力
数据集结构
PusaV1_training/ ├── train/ │ ├── video_000001.mp4 │ ├── video_000001.mp4.tensors.pth │ └── ... └── metadata.csv
- train/: 包含预编码的视频潜在表示和文本嵌入(.tensors.pth)以及源视频文件(.mp4)
- metadata.csv: 包含每个视频的对应文本提示
数据集详情
- 总样本数: 3,860个视频-文本嵌入对
- 数据来源: Vbench2.0(https://huggingface.co/datasets/Vchitect/VBench-V2)
- 格式: 预编码的潜在表示(.pt文件),可直接用于训练
- 用途: 用于训练Pusa-V1.0模型
使用方法
下载数据集
bash huggingface-cli download RaphaelLiu/PusaV1_training --repo-type dataset --local-dir <path_to_dataset_directory>
解压数据集
bash cd <path_to_dataset_directory>/PusaV1_training bash unzip.sh
与Pusa-VidGen配合使用
- 官方代码库: https://github.com/Yaofang-Liu/Pusa-VidGen
创建自定义数据集
- 参考文档:
- Pusa-VidGen: https://github.com/Yaofang-Liu/Pusa-VidGen
- Diffsynth: https://github.com/modelscope/DiffSynth-Studio
引用
bibtex @article{liu2024redefining, title={Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach}, author={Liu, Yaofang and Ren, Yumeng and Cun, Xiaodong and Artola, Aitor and Liu, Yang and Zeng, Tieyong and Chan, Raymond H and Morel, Jean-michel}, journal={arXiv preprint arXiv:2410.03160}, year={2024} }
bibtex @misc{Liu2025pusa, title={Pusa: Thousands Timesteps Video Diffusion Model}, author={Yaofang Liu and Rui Liu}, year={2025}, url={https://github.com/Yaofang-Liu/Pusa-VidGen}, }




