iPhone-PTZ

Hugging Face2026-02-27 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/yinkejia/iPhone-PTZ

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含针对iPhone和iPhone-PTZ的已处理基准数据，与CamDirector项目相关，旨在实现长期连贯的视频轨迹编辑。数据集结构包括两个主要文件夹：evaluation_benchmarks和output_frames。evaluation_benchmarks中包含iPhone和iPhone-PTZ的场景数据，每个场景提供源视频帧和目标视频帧的相机位姿（c2ws和Ks）、深度图、稀疏点云以及源图像和目标图像。output_frames文件夹包含CamDirector处理后的输出帧。该数据集适用于视频轨迹编辑、3D重建和计算机视觉相关任务的研究。

创建时间：

2026-02-27

原始信息汇总

数据集概述

基本信息

数据集名称: iPhone-PTZ
许可证: Apache 2.0
关联论文: CamDirector: Towards Long-Term Coherent Video Trajectory Editing (CVPR 2026)
论文链接: https://yinkejia.github.io/CamDirector-Project-Page/
基准测试链接: https://github.com/yinkejia/iPhone-PTZ-benchmark

数据集内容

本数据集包含为iPhone和iPhone-PTZ基准测试处理过的数据。

数据结构

解压后得到以下两个主要文件夹：

1. 评估基准 (`./evaluation_benchmarks`)

包含两个子数据集：

iPhone/：包含多个场景（如 apple, block 等）。
iPhone-PTZ/：包含多个场景（如 container, corner 等）。

每个场景提供以下数据：

相机位姿 (camera_poses/)
- source_c2ws.pt：源视频帧的相机到世界变换矩阵。
- source_Ks.pt：源视频帧的内参矩阵。
- target_c2ws.pt：目标视频帧的相机到世界变换矩阵。
- target_Ks.pt：目标视频帧的内参矩阵。
- 使用OpenCV相机坐标系。
深度图 (depth_maps/)
- 格式为PNG（如 frame_00000_depth.png）。
- 包含源视频帧和目标视频帧的深度图。
- 读取方法请参考 vis_benchmark.py。
点云 (point_clouds/)
- sparse_pcds_src.saftetensors：源视频帧的稀疏点云。
- 可用于将用户自有的深度图对齐到本数据集的相机坐标系。
图像 (source_imgs/, target_imgs/)
- 格式为PNG（如 frame_00000.png）。
- 分别包含源视频和目标视频的帧图像。

2. 输出帧 (`./output_frames`)

camdiretor/：包含各场景（如 apple, block, container, corner 等）的处理后输出帧图像（如 frame_00000.png）。

数据用途

该数据集用于视频轨迹编辑的评估基准，提供了相机位姿、深度图、点云和图像等处理后的数据，以支持相关算法的训练与测试。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，视频轨迹编辑技术正逐步迈向长期连贯性的新高度，iPhone-PTZ数据集为此提供了关键支持。该数据集通过精心采集和处理真实场景下的视频序列构建而成，涵盖了iPhone和iPhone-PTZ两个基准测试集。每个场景均包含源视频与目标视频的对应帧，并辅以精确的相机位姿、深度图以及稀疏点云数据，这些多模态信息的整合为模型训练与评估奠定了坚实基础。

特点

iPhone-PTZ数据集在视频编辑与三维重建研究中展现出独特价值，其核心特点在于提供了高度结构化的多维度标注。数据集不仅包含原始的图像帧，还配备了相机内外参数、深度信息以及稀疏点云，使得研究者能够深入探索相机运动轨迹与场景几何的关联。这种全面的数据组织方式，尤其适用于评估长期视频轨迹的连贯性，为先进算法如CamDirector的开发与验证创造了理想条件。

使用方法

针对视频轨迹编辑与三维视觉任务的研究者，iPhone-PTZ数据集提供了清晰的使用路径。用户下载并解压数据后，可按照目录结构访问不同场景的源图像、目标图像、相机位姿及深度图等资源。通过配套的脚本如vis_benchmark.py，能够便捷地读取和可视化深度信息，进而用于模型训练、轨迹合成或算法基准测试。数据集支持将自定义深度与提供的稀疏点云对齐，增强了其在多样化研究场景中的适用性。

背景与挑战

背景概述

iPhone-PTZ数据集是计算机视觉领域为推进视频轨迹编辑技术而构建的基准测试集，其核心研究问题聚焦于实现长期连贯的视频相机轨迹编辑。该数据集由McMaster、多伦多大学、香港大学、麦吉尔大学、康考迪亚大学及MBZUAI等机构的科研团队联合创建，并于CVPR 2026会议上正式发布。通过整合iPhone及iPhone-PTZ两种基准的已处理数据，该数据集为视频编辑与三维场景理解提供了丰富的多模态资源，包括相机位姿、深度图与稀疏点云等，显著促进了动态场景中相机运动合成与视觉内容生成的前沿研究。

当前挑战

在视频轨迹编辑领域，实现长期时间连贯性与空间一致性是核心挑战，iPhone-PTZ数据集旨在解决相机轨迹合成中的运动平滑性、视觉真实感及跨帧对齐难题。构建过程中，数据采集与处理面临诸多困难，例如在动态场景下精确估计相机位姿与深度信息需克服运动模糊与遮挡干扰；多视角数据对齐要求高精度标定与配准；此外，大规模点云与图像数据的存储、标注及格式统一亦增加了数据集构建的复杂度，这些挑战共同推动了三维视觉与视频生成技术的演进。

常用场景

经典使用场景

在计算机视觉与视频编辑领域，iPhone-PTZ数据集为长时连贯视频轨迹编辑任务提供了关键基准。该数据集通过提供包含相机位姿、深度图、点云及源与目标图像帧的结构化数据，支持研究者对视频序列进行虚拟相机路径的生成与优化。其经典使用场景聚焦于评估算法在模拟平移、倾斜和变焦等摄像机运动时，能否保持视频内容的时空一致性，从而推动动态场景重建与视觉叙事技术的进步。

衍生相关工作

围绕iPhone-PTZ数据集，学术界衍生出一系列经典研究工作，尤其在神经渲染与视频合成方向取得了显著进展。例如，基于该数据集的CamDirector框架提出了长时连贯视频轨迹编辑的新范式，启发了后续关于动态神经辐射场与相机运动控制的联合优化方法。相关研究进一步拓展至多模态视频生成、实时视觉SLAM以及自适应镜头语言建模等领域，推动了计算机视觉与图形学在生成式媒体技术中的深度融合与创新。

数据集最近研究