GHOF-Cam
收藏arXiv2025-07-30 更新2025-08-01 收录
下载链接:
https://lhaippp.github.io/CamFlow/
下载链接
链接失效反馈官方服务:
资源简介:
GHOF-Cam是一个专门为相机运动估计设计的基准数据集,由现有的光流数据集中动态物体和不良遮挡区域的掩码创建而成,旨在隔离纯相机运动。该数据集通过使用Segment Anything Model (SAM)生成语义图,手动识别动态对象(如汽车和人)并创建相应的掩码,然后将掩码应用于输入图像和真实光流,从而仅捕获相机引起的运动。
GHOF-Cam is a benchmark dataset specifically designed for camera motion estimation. It is constructed using masks of dynamic objects and poorly occluded regions extracted from existing optical flow datasets, with the goal of isolating pure camera-induced motion. This dataset is developed by first generating semantic maps via the Segment Anything Model (SAM), manually identifying dynamic objects such as cars and humans and creating corresponding masks, then applying these masks to both input images and ground-truth optical flow, thereby only capturing motion caused by camera movement.
提供机构:
电子科技大学,小米公司,Dexmal
创建时间:
2025-07-30
原始信息汇总
CamFlow数据集概述
基本信息
- 数据集名称: Estimating 2D Camera Motion with Hybrid Motion Basis (CamFlow)
- 作者: Haipeng Li, Tianhao Zhou, Zhanglei Yang, Yi Wu, Yan Chen, Zijing Mao, Shen Cheng, Bing Zeng, Shuaicheng Liu
- 机构: 电子科技大学, 小米公司, Dexmal
- 项目页面: https://lhaippp.github.io/CamFlow/
研究背景
- 核心问题: 传统基于单应性的方法无法表示组合流场产生的复杂非线性变换
- 关键发现: 组合不同单应性产生的流场会形成无法用任何单一单应性表示的运动模式
方法创新
- 混合运动基:
- 物理运动基(基于相机几何原理)
- 随机运动基(处理复杂非线性变换)
- 技术组件:
- 运动估计变换器(MET)
- 不确定性预测模块
- 基于拉普拉斯分布的混合概率损失函数
数据集特点
- 构建方式: 通过掩蔽现有光流数据集中的动态物体来隔离纯相机运动
- 场景覆盖:
- 低光照环境
- 雨雪天气
- 雾天环境
实验结果
定量评估
CAHomo Benchmark (PME)
- 最佳方法: Ours (0.32)
- 对比方法: SIFT + MAGSAC (1.34), DMHomo (0.31)
GHOF-Cam (EPE)
- 最佳方法: Ours (1.10)
- 对比方法: BasesHomo (1.74), Meshflow (2.15)
GHOF Test (PME)
- 最佳方法: Ours (1.23)
- 对比方法: RealSH (1.72), DMHomo (1.75)
综合评估(PSNR/SSIM/LPIPS)
| 指标 | Ours | 对比最佳方法 |
|---|---|---|
| PSNR↑ | 32.09 | GT-Homo(32.78) |
| SSIM↑ | 0.9142 | GT-Homo(0.9187) |
| LPIPS↓ | 0.0575 | GT-Homo(0.0570) |
引用格式
bibtex @inproceedings{li2025estimating, title={Estimating 2D Camera Motion with Hybrid Motion Basis}, author={Li, Haipeng and Zhou, Tianhao and Yang, Zhanglei and Wu, Yi and Chen, Yan and Mao, Zijing and Cheng, Shen and Zeng, Bing and Liu, Shuaicheng}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision}, pages={xxxx--xxxx}, year={2025} }
搜集汇总
数据集介绍

构建方式
GHOF-Cam数据集通过系统性地掩蔽现有光流数据集中的动态物体和不适定遮挡区域,构建了一个专注于相机运动估计的基准。具体而言,研究团队利用Segment Anything Model(SAM)生成语义图,手动识别动态物体(如车辆和行人)并生成相应掩膜。这些掩膜经过膨胀处理以覆盖遮挡区域,随后被应用于图像和光流数据,从而分离出纯粹的相机诱导运动。该方法有效消除了场景动态元素对相机运动估计的干扰,为评估算法性能提供了纯净的数据基础。
特点
GHOF-Cam数据集的核心特点在于其专注于相机运动的纯净性。通过精细的语义分割和掩膜处理,该数据集有效隔离了动态物体的干扰,保留了由相机运动产生的光流特征。数据集覆盖多样化的环境条件,包括常规场景、雾天、低光照、雨天和雪天等挑战性场景,为零样本测试提供了全面评估平台。此外,数据集通过专业标注确保了相机运动与场景运动的精确区分,为复杂非线性相机运动的建模研究提供了可靠基准。
使用方法
GHOF-Cam数据集主要用于评估相机运动估计算法的性能。研究人员可通过计算端点误差(EPE)和点匹配误差(PME)等指标,在纯净相机运动数据上验证算法的准确性。该数据集特别适合测试算法在复杂环境下的鲁棒性,以及处理多平面场景和非线性运动的能力。使用时应将算法预测的光流与数据集提供的真实相机运动光流进行对比分析,同时可结合置信度掩膜排除动态区域的干扰,确保评估结果反映真实的相机运动估计性能。
背景与挑战
背景概述
GHOF-Cam数据集由电子科技大学、小米公司和Dexmal的研究团队于2025年创建,旨在解决计算机视觉领域中2D相机运动估计的核心问题。该数据集通过掩蔽现有光流数据集中的动态对象,分离出纯粹的相机运动,为相机运动学习提供了一个专门的评估基准。GHOF-Cam的提出填补了多平面场景和非线性变换建模的研究空白,对视频稳定、计算成像等应用具有重要影响。
当前挑战
GHOF-Cam数据集面临的挑战主要体现在两个方面:领域问题方面,传统单应性方法局限于平面场景,而基于网格流的技术难以处理复杂的非线性变换;构建过程方面,需要精确分离动态对象与相机运动,避免遮挡区域带来的干扰,同时确保数据集的多样性和泛化能力以覆盖不同环境条件。
常用场景
经典使用场景
在计算机视觉领域,GHOF-Cam数据集作为专门针对相机运动估计的基准测试工具,其经典应用场景集中于复杂非线性的2D相机运动建模。该数据集通过掩膜处理动态物体和遮挡区域,有效隔离了纯相机运动信号,为评估算法在平面场景、低纹理环境及动态干扰下的性能提供了标准化平台。尤其在多平面场景中,传统单应性方法因无法处理深度变化导致的非线性运动而受限,GHOF-Cam通过混合运动基底的框架,实现了对旋转、平移、缩放及透视变换的精确建模。
解决学术问题
GHOF-Cam数据集解决了相机运动估计中的核心学术问题:传统单应性方法受限于平面场景假设,而网格流方法虽能处理局部非线性运动,却面临优化复杂度随网格数量增长的困境。该数据集提出的混合运动基底(物理基底与随机基底)突破了线性组合的局限性,通过泰勒展开和随机采样SVD分解,首次实现了对高阶运动模式的数学表征。其基于拉普拉斯分布的概率损失函数,显著提升了算法在动态物体干扰、低光照等复杂场景下的鲁棒性,为零样本迁移场景提供了理论验证基础。
衍生相关工作
GHOF-Cam数据集催生了多项里程碑式的研究成果:BasesHomo通过8维运动基底重构单应性估计任务,MeshHomoGAN引入生成对抗网络优化局部网格变形,而CamFlow框架进一步融合物理几何先验与随机运动建模,在CVPR 2025上以24基底混合架构刷新了多项基准记录。这些工作共同推动了从传统特征匹配(如SIFT+RANSAC)到数据驱动范式的转变,相关成果已被集成至OpenCV等开源库,成为视频稳像、全景拼接等工业级应用的标准方案。
以上内容由遇见数据集搜集并总结生成



