DropletVideo|视频生成数据集|时空一致性数据集
收藏DropletVideo 数据集概述
数据集简介
DropletVideo 是一个探索图像到视频生成中高阶时空一致性的项目。该模型在 DropletVideo-10M 数据集上进行训练,支持多分辨率输入、动态FPS控制以调节运动强度,并展示了3D一致性的潜力。
数据集特点
- 多分辨率输入:支持从512x512x85(默认672x384x85)到896x896x85(默认1120x640x85)的像素值,以及不同宽高比的视频。
- 动态FPS控制:用于调节运动强度。
安装与使用
环境配置
- 系统环境:NVIDIA A100-SXM4-80GB,CUDA 11.8,Driver Version: 550.144.03。
- 依赖安装:通过
requirements.txt
文件安装所需依赖。
模型权重
- DropletVideo-5B 检查点:已上传至 Huggingface。
- 权重分布:
text_encoder
和tokenizer
使用 google-t5 模型权重(未训练)。scheduler
是推理过程中的去噪策略。vae
是像素到潜在网络的实现。transformer
包含 5B 的 Transformer 模型权重。
使用示例
bash python inference.py --ckpt DropletVideo-V1.0-weights --ref_img_dir assets/752.jpg --FPS 4 --prompt "视频展示了一个宏伟的音乐厅..."
命令行参数
- 必需参数:
--ckpt
:模型权重路径。--ref_img_dir
:输入条件图像路径。--FPS
:输入条件FPS,控制运动强度。--prompt
:输入文本。
- 其他参数:
--width
:生成视频的宽度。--height
:生成视频的高度。--video_length
:生成视频的帧数。--num_inference_steps
:推理过程中的去噪步骤数。--seed
:推理的随机种子。--guidance_scale
:去噪过程的引导比例。
引用
如果使用该数据集或模型,请引用以下论文: bibtex @article{zhang2025dropletvideo, title={DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation}, author={Zhang, Runze and Du, Guoguang and Li, Xiaochuan and Jia, Qi and Jin, Liang and Liu, Lu and Wang, Jingjing and Xu, Cong and Guo, Zhenhua and Zhao, Yaqian and Gong, Xiaoli and Li, Rengang and Fan, Baoyu}, journal={arXiv preprint arXiv:2503.06053}, year={2025} }
联系方式
如有任何问题或建议,请联系 zrzsgsg@gmail.com。
许可证
该项目采用 Apache 2.0 许可证。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录