dynpose-100k

Name: dynpose-100k
Creator: NVIDIA
Published: 2025-04-25 10:29:31
License: 暂无描述

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/nvidia/dynpose-100k

下载链接

链接失效反馈

官方服务：

资源简介：

DynPose-100K是一个包含10万个动态视频和相机标注的大规模数据集，旨在解决相机估计中的两个关键挑战：识别适合相机估计的视频以及改进动态视频的相机估计算法。数据集提供了视频的世界到相机姿态和内参标注，适用于进一步的研究和开发。

提供机构：

NVIDIA

创建时间：

2025-04-19

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，动态场景下的相机位姿估计一直是极具挑战性的研究方向。DynPose-100K数据集通过精心筛选来自互联网的3.2百万个候选视频，最终选取10万个包含丰富动态内容的视频样本。该数据集采用先进的结构从运动（SfM）技术进行相机位姿标注，包括世界坐标系到相机坐标系的变换矩阵和相机内参矩阵，确保每个视频序列的相机参数都能被准确估计。数据采集过程中特别注重视频内容的动态性和相机参数的可估计性，为解决动态视频中的相机位姿估计难题提供了重要基础。

特点

DynPose-100K以其规模宏大和标注精细而著称，包含10万段分辨率为1280×720的高质量视频。数据集不仅提供原始MP4格式视频文件，还包含12fps抽取的帧序列和详细的相机参数标注。特别值得注意的是，每个视频样本都配有精确的相机位姿数据、内参矩阵以及重投影误差等质量评估指标。数据集涵盖多样化的动态场景，为研究动态环境下的相机位姿估计提供了丰富的实验素材。数据组织采用统一标识符（UID）系统，确保视频、帧序列和相机参数之间的精确对应。

使用方法

使用DynPose-100K数据集需要按照特定步骤进行操作。首先通过提供的metadata.csv文件下载原始视频数据，建议使用720p分辨率以获得最佳效果。随后运行帧提取脚本，以12fps的速率从视频中抽取关键帧。相机参数数据以PKL格式存储，可通过Python脚本直接加载。数据集还提供可视化工具，帮助用户直观理解相机位姿变化。为便于研究，建议创建专用conda环境运行相关代码。数据使用过程中需注意相机坐标系采用OpenCV的RDF约定，X轴向右，Y轴向下，Z轴向前。

背景与挑战

背景概述

DynPose-100K是由NVIDIA、密歇根大学和纽约大学的研究团队联合构建的大规模动态视频数据集，专注于相机位姿估计领域。该数据集于2025年发布，旨在解决动态场景下相机位姿估计的关键问题。研究团队从320万候选视频中筛选出10万段高质量视频，每段视频均标注了精确的相机内参和位姿信息。DynPose-100K的建立推动了计算机视觉领域对动态场景三维理解的研究，为增强现实、自动驾驶等应用提供了重要数据支持。

当前挑战

DynPose-100K面临的核心挑战主要体现在两个方面：在领域问题层面，动态视频中的相机位姿估计需要克服运动物体干扰、光照变化等复杂因素，传统静态场景方法难以直接适用；在构建过程层面，研究团队需要从海量网络视频中筛选适合位姿估计的样本，确保视频质量的同时保持数据多样性，并开发可靠的位姿标注流程。此外，大规模视频数据的存储与处理（总计约600GB）也带来了显著的技术挑战。

常用场景

经典使用场景

在计算机视觉领域，动态场景下的相机位姿估计一直是研究热点。DynPose-100K数据集通过提供10万段包含动态内容的视频及其精确的相机位姿标注，为这一领域的研究提供了重要支持。该数据集特别适用于训练和评估动态场景下的相机位姿估计算法，帮助研究者克服动态物体对传统位姿估计方法的干扰。

实际应用

在实际应用中，DynPose-100K数据集可广泛应用于增强现实、虚拟现实、自动驾驶等领域。例如，在AR应用中，精确的相机位姿估计是实现虚拟物体与现实场景无缝融合的关键；在自动驾驶系统中，动态场景下的相机位姿估计对车辆定位和环境感知至关重要。

衍生相关工作

基于DynPose-100K数据集，研究者们已开展多项创新性工作。这些工作主要集中在动态场景下的三维重建算法改进、鲁棒性相机位姿估计方法开发，以及结合深度学习的新型位姿预测框架设计等方面。该数据集还促进了与其他大规模视觉数据集的交叉研究，推动了计算机视觉领域的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集