five

360-1M

收藏
github2024-12-11 更新2024-12-12 收录
下载链接:
https://github.com/MattWallingford/360-1M
下载链接
链接失效反馈
官方服务:
资源简介:
360-1M数据集是一个包含视频数据的数据集,用户可以通过提供的代码下载和处理这些视频,并用于训练ODIN模型。

The 360-1M Dataset is a dataset containing video data. Users can download and process these videos via the provided code, and utilize them for training the ODIN model.
创建时间:
2024-12-11
原始信息汇总

360-1M 数据集概述

概述

360-1M 数据集是一个用于下载、处理视频并训练 ODIN 模型的代码库。数据集的元数据包含所有视频的 URL,可以在以下链接中找到:

Metadata with Video URLs

数据下载和预处理

  • 视频下载:可以使用提供的脚本下载视频: bash python Downloads/Download_GCP.py --path 360-1M.parquet

    所有视频的最大分辨率总大小约为 200 TB。目前提供了一个用于大规模下载视频到 GCP 的脚本,并将很快发布代码以支持下载较小规模的过滤子集。

  • 提取帧:从视频中提取帧可以使用以下脚本: bash python video_to_frames.py --path /path/to/videos --out /path/to/frames

  • 提取成对姿态:提取帧后,可以使用以下脚本计算成对姿态: bash python extract_poses.py --path /path/to/frames

训练

  • 下载 Stable Diffusion Checkpoint:下载由 Lambda Labs 发布的图像条件 Stable Diffusion 检查点: bash wget https://cv.cs.columbia.edu/zero123/assets/sd-image-conditioned-v2.ckpt

  • 开始训练:运行训练脚本: bash python main.py -t --base configs/sd-ODIN-finetune-c_concat-256.yaml --gpus 0,1,2,3,4,5,6,7 --scale_lr False --num_nodes 1 --check_val_every_n_epoch 1 --finetune_from sd-image-conditioned-v2.ckpt

搜集汇总
数据集介绍
main_image_url
构建方式
360-1M数据集的构建基于大规模视频数据的采集与处理。首先,通过提供的元数据文件获取视频的URL,并使用yt-dlp工具进行视频下载。随后,利用MAST3R工具对视频进行预处理,提取关键帧并计算成对姿态信息。整个过程涉及多个开源工具的集成与定制化脚本的开发,确保数据的高效获取与处理。
特点
360-1M数据集的显著特点在于其庞大的规模和多样性。该数据集包含约200TB的高分辨率视频数据,涵盖了广泛的内容领域。此外,数据集提供了详细的元数据和预处理脚本,便于用户快速获取和处理数据。通过提取视频帧和计算成对姿态,数据集为计算机视觉领域的研究提供了丰富的素材。
使用方法
使用360-1M数据集时,用户首先需要配置环境并安装相关依赖工具。通过提供的下载脚本,用户可以从GCP下载视频数据,并使用video_to_frames.py脚本提取视频帧。随后,用户可以利用extract_poses.py脚本计算成对姿态信息。最后,用户可以基于这些预处理数据进行模型训练,如使用Stable Diffusion Checkpoint进行微调训练。
背景与挑战
背景概述
360-1M数据集是由主要研究人员或机构创建,旨在支持ODIN模型的训练与优化。该数据集包含了大量的高分辨率视频,这些视频通过特定的元数据URL进行访问。创建该数据集的核心研究问题在于如何高效地处理和利用大规模视频数据,以提升模型在视频分析和处理任务中的表现。360-1M的发布不仅为视频处理领域提供了丰富的资源,还推动了相关技术的发展,特别是在视频帧提取和姿态估计方面。
当前挑战
360-1M数据集在构建和应用过程中面临多项挑战。首先,数据集的规模巨大,总视频容量高达200TB,这对存储和计算资源提出了极高的要求。其次,视频的高分辨率和高质量下载可能导致网络带宽限制和IP封锁问题。此外,从视频中提取帧和计算成对姿态的过程复杂且计算密集,需要高效的算法和工具支持。最后,如何在有限的资源下有效地训练模型,同时保持模型的性能和精度,是该数据集应用中的另一大挑战。
常用场景
经典使用场景
360-1M数据集在视频处理和计算机视觉领域中具有广泛的应用,尤其在视频帧提取和姿态估计方面表现突出。通过该数据集,研究者可以高效地从大规模视频中提取关键帧,并进行深度学习模型的训练。此外,该数据集还支持视频下载和预处理,为视频分析和内容生成提供了丰富的资源。
实际应用
在实际应用中,360-1M数据集被广泛用于视频分析、内容生成和虚拟现实等领域。例如,在视频监控系统中,该数据集可以帮助提取关键帧并进行行为识别;在虚拟现实和增强现实应用中,姿态估计数据可用于用户交互和场景重建。此外,该数据集还支持大规模视频数据的下载和处理,为工业界提供了强大的技术支持。
衍生相关工作
基于360-1M数据集,研究者们开发了多种相关的经典工作,包括视频帧提取算法、姿态估计模型以及视频内容生成技术。例如,有研究利用该数据集进行深度学习模型的微调,提升了视频分析的准确性;还有工作通过提取视频中的关键帧,实现了高效的视频摘要生成。这些衍生工作进一步拓展了数据集的应用范围,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作