StereoWalker

Name: StereoWalker
Creator: 弗吉尼亚大学
Published: 2025-12-12 02:59:56
License: 暂无描述

arXiv2025-12-12 更新2025-12-15 收录

下载链接：

https://www.cs.virginia.edu/~tsx4zn/stereowalk/

下载链接

链接失效反馈

官方服务：

资源简介：

StereoWalker数据集由弗吉尼亚大学的研究团队创建，是一个大规模立体视觉导航数据集，包含约500个独立非重叠的立体视频片段，总计60小时的立体影像数据，覆盖了旧金山、马德里和东京等多个全球大都市。数据集通过YouTube公开内容采集，并经过严格的过滤和质量控制，确保视频内容为具有明确目标的行走行为。数据集的创建过程包括自动过滤非导航内容、立体视觉里程计轨迹标注等步骤，旨在为动态城市环境下的机器人导航研究提供高质量的立体视觉数据支持。该数据集的应用领域主要集中在机器人视觉导航、立体视觉算法研究以及端到端导航模型的训练与评估。

The StereoWalker dataset was created by a research team from the University of Virginia. It is a large-scale stereo visual navigation dataset containing approximately 500 independent non-overlapping stereo video clips, with a total of 60 hours of stereo imagery covering multiple global metropolises including San Francisco, Madrid, and Tokyo. The dataset was collected from publicly available YouTube content, and underwent stringent filtering and quality control to ensure that the video content consists of purposeful walking behaviors. The development process of the dataset includes steps such as automatic filtering of non-navigation content and stereo visual odometry trajectory annotation, aiming to provide high-quality stereo visual data support for robot navigation research in dynamic urban environments. The main application fields of this dataset primarily focus on robot visual navigation, stereo visual algorithm research, as well as the training and evaluation of end-to-end navigation models.

提供机构：

弗吉尼亚大学

创建时间：

2025-12-12

原始信息汇总

StereoWalker 数据集概述

数据集基本信息

数据集名称：StereoWalker
相关论文标题：Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision
作者：Wentao Zhou, Xuweiyi Chen, Vignesh Rajagopal, Jeffrey Chen, Rohan Chandra, Zezhou Cheng
机构：University of Virginia
论文来源：arXiv preprint arXiv:2512.10956 (2025)

数据集目的与内容

核心目的：为训练 StereoWalker 模型及未来研究提供支持，旨在解决动态和非结构化环境下的机器人导航问题。
数据内容：一个大型立体视觉导航数据集，包含从互联网立体视频中自动标注的动作信息。
数据特点：包含立体输入，并支持通过显式中层视觉模块（如深度估计和密集像素跟踪）进行几何与动态理解。

方法与技术特点

输入支持：支持立体和单目输入，架构相同，仅标记化方式不同。
视觉处理：保留所有图像块标记以保留细粒度空间结构，而非仅压缩为单个全局标记。
处理流程：
1. 通过跟踪引导注意力维持时间对应关系并减少漂移。
2. 通过全局注意力整合跨视图的场景上下文。
3. 通过目标标记注意力将预测集中在目标相关区域。
中层视觉模块：显式结合深度估计和密集像素跟踪，提供互补的几何与运动结构信息。

性能与效果

训练效率：仅使用 1.5% 的 CityWalker 训练数据即可达到可比性能；使用全部数据时性能超越当前最先进模型（CityWalker）。
性能提升：
- 使用所有图像块标记能立即显著降低平均角方向误差。
- 加入深度信息可进一步大幅降低平均角方向误差。
- 在深度基础上加入跟踪信息能带来额外的性能增益。
输入对比：立体视觉比单目输入能产生更高的导航性能。

实验环境

评估基准：CityWalker 远程操作基准。
实验场景：大规模动态城市导航，涵盖前进、左转和右转场景。

搜集汇总

数据集介绍

构建方式

StereoWalker数据集的构建依托于从互联网公开VR180立体视频中挖掘的大规模真实世界行走序列。研究团队从YouTube等平台采集了覆盖旧金山、马德里、东京等多个全球城市的立体行走视频，经过严格的筛选与校正流程，确保视频内容呈现以目标为导向的主动行走行为，剔除了停留、观光等非导航片段。通过先进的立体视觉里程计技术自动生成高精度的轨迹标签，为视觉导航基础模型提供了兼具几何一致性与行为真实性的监督信号。

特点

该数据集的核心特点在于其立体视觉输入与显式中层视觉表示的深度融合。相较于传统单目导航数据集，StereoWalker通过左右视图的立体对有效解决了深度尺度模糊问题，为模型提供了精确的三维几何线索。同时，数据集在构建中显式集成了深度估计与密集像素跟踪等中层视觉先验，这些结构化表征增强了模型在动态复杂场景中对运动与几何的理解能力。数据覆盖多样化的城市环境与光照条件，具备高度的真实性与泛化潜力。

使用方法

StereoWalker数据集主要用于训练与评估面向动态城市环境的视觉导航基础模型。研究者可将立体图像对连同自动生成的轨迹标签作为输入，训练端到端的导航策略模型。该数据集支持对模型在转向、穿行、绕行、人群交互等多种关键场景下的性能进行细粒度评估。通过引入中层视觉模块，模型能够以极低的数据需求实现高效学习，仅用1.5%的训练数据即可达到先进性能，为样本高效的机器人导航研究提供了重要基准。

背景与挑战

背景概述

StereoWalker数据集由弗吉尼亚大学的研究团队于2025年提出，旨在解决动态非结构化城市环境中视觉导航基础模型的性能瓶颈。该数据集的核心研究问题聚焦于如何通过立体视觉和中层视觉先验，克服单目视觉固有的深度尺度模糊性，从而提升机器人导航的几何理解与运动感知能力。其创新性在于首次大规模整合了来自互联网的立体行走视频，并自动生成动作标注，为视觉导航领域提供了首个面向真实世界动态场景的立体视觉基准，显著推动了具身智能在复杂城市环境中的实际应用。

当前挑战

StereoWalker数据集主要应对两大挑战：在领域问题层面，它致力于解决动态城市导航中单目视觉因深度尺度模糊导致的几何理解不准确问题，以及传统导航模型在密集行人、不规则路况等开放环境中的泛化能力不足；在构建过程中，研究团队面临从海量互联网视频中筛选高质量目标导向行走片段的难题，需借助视觉语言模型进行自动过滤，同时需设计鲁棒的立体视觉里程计方法以生成精确的动作监督信号，确保数据标注的可靠性与规模可扩展性。

常用场景

经典使用场景

在动态城市导航领域，StereoWalker数据集被广泛用于训练和评估端到端的视觉导航基础模型。该数据集通过从互联网VR180立体视频中自动提取并标注行走轨迹，提供了丰富的立体视觉输入与精确的动作监督。其经典使用场景包括在复杂城市环境中进行行人导航模拟，例如在密集人流、不规则道路布局和多样化天气条件下，模型学习从立体图像序列直接预测未来路径点，从而实现鲁棒的目标导向行走。

实际应用

在实际应用层面，StereoWalker数据集为自主机器人系统在城市环境中的部署提供了关键训练资源。基于该数据集训练的模型可应用于最后一公里配送、服务机器人导航等场景，使机器人能够在真实世界的人行道、交叉路口和拥挤区域中安全、高效地移动。通过结合立体相机和预训练视觉模型，系统能够实时理解场景的三维几何与动态变化，从而做出符合社会惯例的导航决策。

衍生相关工作

StereoWalker数据集的发布催生了一系列相关研究工作，尤其是在立体视觉与中层视觉融合的导航模型设计方面。例如，基于该数据集，研究者进一步探索了跟踪引导注意力机制在时序一致性建模中的作用，以及如何利用立体深度信息减少训练数据需求。这些工作扩展了视觉导航基础模型的能力边界，并在机器人学顶级会议上引发了关于显式几何表征与隐式学习平衡的深入讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集