ZeroVO

Name: ZeroVO
Creator: 波士顿大学
Published: 2025-06-10 01:59:51
License: 暂无描述

arXiv2025-06-10 更新2025-06-11 收录

下载链接：

https://zvocvpr.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

ZeroVO是一个创新的视觉里程计（VO）算法，能够在多种相机和环境之间实现零样本泛化，克服了现有方法对预定义或静态相机校准设置的依赖。该算法包含三个主要创新：首先，设计了一种无需校准的、几何感知的网络结构，能够处理估计深度和相机参数中的噪声；其次，引入了一种基于语言的先验知识，通过注入语义信息来增强特征提取和泛化到之前未见过的领域；第三，开发了一种灵活的半监督训练范式，利用未标记数据迭代适应新场景，进一步提高了模型在多种现实世界场景中的泛化能力。该研究分析了复杂的自动驾驶环境，在三个标准基准测试（KITTI、nuScenes和Argoverse 2）以及一个新引入的高保真合成数据集（来自Grand Theft Auto）上，比先前的方法提高了30%以上。由于无需微调或相机校准，我们的工作扩大了VO的应用范围，为大规模的实际部署提供了一个通用的解决方案。

ZeroVO is an innovative visual odometry (VO) algorithm that enables zero-shot generalization across diverse cameras and environments, eliminating the reliance of existing methods on predefined or static camera calibration settings. The algorithm encompasses three core innovations: First, a calibration-free geometry-aware network architecture is designed to handle noise in both estimated depth and camera parameters. Second, a language-based prior knowledge is introduced to enhance feature extraction and generalization to previously unseen domains by injecting semantic information. Third, a flexible semi-supervised training paradigm is developed, which leverages unlabeled data to iteratively adapt to new scenes and further improves the model’s generalization capability across various real-world scenarios. This study analyzes complex autonomous driving environments, and achieves over 30% performance improvement over prior state-of-the-art methods on three standard benchmarks (KITTI, nuScenes, and Argoverse 2) as well as a newly introduced high-fidelity synthetic dataset from Grand Theft Auto. Since no fine-tuning or camera calibration is required, our work expands the application scope of VO and provides a universal solution for large-scale real-world deployment.

提供机构：

波士顿大学

创建时间：

2025-06-10

原始信息汇总

ZeroVO: Visual Odometry with Minimal Assumptions 数据集概述

基本信息

作者: Lei Lai, Zekai Yin, Eshed Ohn-Bar (波士顿大学)
发表会议: CVPR 2025
项目页面: https://zvocvpr.github.io/
数据集类型: 视觉里程计（Visual Odometry）
核心创新: 零样本泛化能力，无需预定义相机标定

关键贡献

标定无关的几何感知网络
- 无需预定义标定
- 可处理深度估计和相机参数噪声
基于语言的语义先验
- 通过语言模型注入语义信息
- 增强特征提取和跨域泛化能力
灵活的半监督训练
- 利用未标注数据迭代适应新场景
- 提升现实场景泛化能力

GTA V数据集特性

数据规模: 922段驾驶序列（每段25秒，10FPS）
场景多样性:
- 多种天气条件（雪、雨、昼夜）
- 不同驾驶速度（含高速机动）
- 复杂交通场景和动态物体
- 相机设置变化和镜头畸变效果
- 越野场景（山地、沙漠、森林）

实验性能

定量结果（误差指标）

方法	KITTI (tₑᵣᵣ)	nuScenes (ATE)	Argoverse (sₑᵣᵣ)	GTA (rₑᵣᵣ)
XVO	16.82	8.30	0.12	12.64
M+DS	14.22	10.46	0.13	10.38
ZeroVO	7.69	6.79	0.11	10.63
ZeroVO+	6.81	6.03	0.09	7.99
LiteZeroVO+	8.85	6.87	0.11	12.16

模型变体

ZeroVO+: 半监督训练+多模态伪标签选择（0.6 FPS）
LiteZeroVO+: 资源优化版本（5 FPS）

资源链接

论文: [PDF]
代码: [GitHub]
数据集: [GTA Dataset]
补充视频: [Supplementary Video]

引用格式

bibtex @inproceedings{donotciteplaceholder, title={{ZeroVO}: Visual Odometry with Minimal Assumptions}, author={Lai, Lei and Yin, Zekai and Ohn-Bar, Eshed}, booktitle={CVPR}, year={2025} }

搜集汇总

数据集介绍

构建方式

ZeroVO数据集的构建基于一种创新的视觉里程计算法，该算法通过几何感知网络结构和语言先验信息，实现了在多样化相机和环境中的零样本泛化。数据集通过半监督训练范式，利用未标记数据进行迭代适应，进一步提升了模型在复杂真实场景中的泛化能力。数据集的构建过程包括从Grand Theft Auto (GTA)高保真合成数据集中提取的驾驶序列，涵盖了多种天气条件、驾驶速度和复杂交通场景。

特点

ZeroVO数据集的特点在于其多样性和挑战性，涵盖了多种天气条件（如雨雪、夜间驾驶）、复杂交通场景以及不同相机设置。数据集包含高分辨率的合成图像，模拟了真实世界中的各种驾驶条件，如镜面反射、镜头退化等。此外，数据集还提供了丰富的语言描述，用于增强语义信息的提取和场景理解。这些特点使得ZeroVO成为评估视觉里程计算法在极端条件下性能的理想选择。

使用方法

ZeroVO数据集的使用方法包括两个主要阶段：监督训练和半监督训练。在监督训练阶段，模型使用标注数据进行训练，优化相对相机位姿的预测。在半监督训练阶段，模型利用未标记数据生成伪标签，并通过几何和语言引导的伪标签选择机制过滤噪声样本。数据集适用于评估视觉里程计算法在多样化场景中的泛化能力，特别是在未知相机参数和极端环境条件下的表现。

背景与挑战

背景概述

ZeroVO是由波士顿大学的研究团队于2025年提出的创新性视觉里程计算法，旨在解决传统VO方法在多样化相机配置和复杂环境中的泛化难题。该数据集通过融合几何感知网络架构、语言先验知识和半监督训练范式三大创新，在KITTI、nuScenes和Argoverse 2等标准基准测试中实现了30%的性能提升，并引入了基于《侠盗猎车手》的高保真合成数据集。其核心突破在于无需相机标定或微调即可实现跨域零样本迁移，显著拓展了VO技术在真实场景中的适用边界。

当前挑战

ZeroVO面临的双重挑战体现在算法层面和数据集构建层面。在领域问题方面，传统VO方法受限于特征跟踪丢失、优化不稳定和运动漂移等问题，尤其在光照变化、动态场景和恶劣天气条件下性能急剧下降。现有学习型方法普遍依赖特定数据集的标定参数和真值监督，难以应对未见过域的相机参数变化。在构建过程中，研究团队需解决三大难题：深度估计与相机参数噪声的鲁棒性处理、跨模态特征（视觉-语言）的有效融合，以及半监督训练中伪标签噪声的抑制。合成数据与真实场景间的域差距问题也为数据验证带来额外挑战。

常用场景

经典使用场景

ZeroVO数据集在视觉里程计（VO）领域中被广泛用于零样本跨相机和跨环境的姿态估计任务。该数据集通过融合几何感知网络结构和语言先验，能够在未经校准的相机设置下实现高精度的相对位姿预测。其经典使用场景包括自动驾驶中的复杂环境导航，如城市道路、高速公路以及恶劣天气条件下的行驶轨迹估计。数据集提供的多样化场景和相机配置使其成为评估VO算法泛化能力的理想选择。

实际应用

ZeroVO数据集在实际应用中展现了广泛的潜力。在自动驾驶领域，其无需相机校准的特性使其能够快速部署于不同类型的车辆和传感器配置中。数据集支持的复杂场景（如夜间行驶、雨雪天气和动态交通）使其成为开发鲁棒导航系统的关键资源。此外，ZeroVO的高精度姿态估计能力还可应用于机器人导航、增强现实（AR）和虚拟现实（VR）等领域，为多模态感知系统提供了强有力的支持。

衍生相关工作

ZeroVO数据集衍生了一系列经典研究工作。基于其提出的几何感知网络和语言先验，后续研究开发了多种改进的VO算法，如结合多模态融合的XVO和轻量化的LiteZeroVO+。此外，ZeroVO的半监督训练框架为其他计算机视觉任务（如深度估计和场景流预测）提供了新的思路。数据集还推动了GTA合成数据集的开发，进一步丰富了自动驾驶仿真测试的多样性。这些工作共同推动了视觉里程计领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集