DropletVideo
收藏DropletVideo 数据集概述
数据集简介
DropletVideo 是一个探索图像到视频生成中高阶时空一致性的项目。该模型在 DropletVideo-10M 数据集上进行训练,支持多分辨率输入、动态FPS控制以调节运动强度,并展示了3D一致性的潜力。
数据集特点
- 多分辨率输入:支持从512x512x85(默认672x384x85)到896x896x85(默认1120x640x85)的像素值,以及不同宽高比的视频。
- 动态FPS控制:用于调节运动强度。
安装与使用
环境配置
- 系统环境:NVIDIA A100-SXM4-80GB,CUDA 11.8,Driver Version: 550.144.03。
- 依赖安装:通过
requirements.txt文件安装所需依赖。
模型权重
- DropletVideo-5B 检查点:已上传至 Huggingface。
- 权重分布:
text_encoder和tokenizer使用 google-t5 模型权重(未训练)。scheduler是推理过程中的去噪策略。vae是像素到潜在网络的实现。transformer包含 5B 的 Transformer 模型权重。
使用示例
bash python inference.py --ckpt DropletVideo-V1.0-weights --ref_img_dir assets/752.jpg --FPS 4 --prompt "视频展示了一个宏伟的音乐厅..."
命令行参数
- 必需参数:
--ckpt:模型权重路径。--ref_img_dir:输入条件图像路径。--FPS:输入条件FPS,控制运动强度。--prompt:输入文本。
- 其他参数:
--width:生成视频的宽度。--height:生成视频的高度。--video_length:生成视频的帧数。--num_inference_steps:推理过程中的去噪步骤数。--seed:推理的随机种子。--guidance_scale:去噪过程的引导比例。
引用
如果使用该数据集或模型,请引用以下论文: bibtex @article{zhang2025dropletvideo, title={DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation}, author={Zhang, Runze and Du, Guoguang and Li, Xiaochuan and Jia, Qi and Jin, Liang and Liu, Lu and Wang, Jingjing and Xu, Cong and Guo, Zhenhua and Zhao, Yaqian and Gong, Xiaoli and Li, Rengang and Fan, Baoyu}, journal={arXiv preprint arXiv:2503.06053}, year={2025} }
联系方式
如有任何问题或建议,请联系 zrzsgsg@gmail.com。
许可证
该项目采用 Apache 2.0 许可证。




