360-1M
收藏360-1M 数据集概述
概述
360-1M 数据集是一个用于下载、处理视频并训练 ODIN 模型的代码库。数据集的元数据包含所有视频的 URL,可以在以下链接中找到:
数据下载和预处理
-
视频下载:可以使用提供的脚本下载视频: bash python Downloads/Download_GCP.py --path 360-1M.parquet
所有视频的最大分辨率总大小约为 200 TB。目前提供了一个用于大规模下载视频到 GCP 的脚本,并将很快发布代码以支持下载较小规模的过滤子集。
-
提取帧:从视频中提取帧可以使用以下脚本: bash python video_to_frames.py --path /path/to/videos --out /path/to/frames
-
提取成对姿态:提取帧后,可以使用以下脚本计算成对姿态: bash python extract_poses.py --path /path/to/frames
训练
-
下载 Stable Diffusion Checkpoint:下载由 Lambda Labs 发布的图像条件 Stable Diffusion 检查点: bash wget https://cv.cs.columbia.edu/zero123/assets/sd-image-conditioned-v2.ckpt
-
开始训练:运行训练脚本: bash python main.py -t --base configs/sd-ODIN-finetune-c_concat-256.yaml --gpus 0,1,2,3,4,5,6,7 --scale_lr False --num_nodes 1 --check_val_every_n_epoch 1 --finetune_from sd-image-conditioned-v2.ckpt




