five

360SPR

收藏
arXiv2025-03-25 更新2025-03-28 收录
下载链接:
https://junweizheng93.github.io/publications/SPR/SPR.html
下载链接
链接失效反馈
官方服务:
资源简介:
360SPR数据集是由卡尔斯鲁厄理工学院创建的,包含超过20万张全景图和360万张针孔图像,分布在270个场景中。这些图像通过Habitat模拟器生成,并采用手动检查的方式确保质量。数据集考虑了不同采样间隔和传感器高度,提供了丰富的视觉信息,适用于视觉定位任务,特别是在室内场景中,有助于提高模型的泛化能力和准确性。

The 360SPR Dataset was developed by Karlsruhe Institute of Technology. It consists of over 200,000 panoramic images and 3.6 million pinhole images, spanning 270 unique scenes. All images are generated using the Habitat simulator, with their quality verified via manual inspection. The dataset incorporates varying sampling intervals and sensor heights, offering abundant visual information. It is tailored for visual localization tasks, particularly in indoor environments, and facilitates the enhancement of model generalization capability and accuracy.
提供机构:
卡尔斯鲁厄理工学院
创建时间:
2025-03-25
搜集汇总
数据集介绍
main_image_url
构建方式
360SPR数据集通过Habitat模拟器在HM3D和Matterport3D数据集基础上构建,采集了270个场景中超过3.6M的针孔图像及其对应的相机位姿。每个采样点通过6个方位角和3个仰角采集18张针孔图像,最终拼接成1024×2048分辨率的全景图像。为确保数据质量,三位检查员进行了超过300小时的人工交叉验证。轨迹采样采用Dijkstra算法计算最短路径,并考虑了不同长度(3m至20m)和采样间隔的轨迹,同时覆盖了0.1m、0.5m和1.7m三种传感器高度,分别对应扫地机器人、四足机器人和人形机器人的典型高度。
特点
360SPR数据集包含200K张高真实感全景图像和3.6M张针孔图像,覆盖270个多样化室内场景,是目前视觉定位领域规模最大且多样性最丰富的数据集之一。其全景图像提供360°水平视场和180°垂直视场,显著增强了帧间重叠和视觉信息量,解决了传统针孔图像在宽视角变化下信息不足的问题。数据集特别设计了三种传感器高度配置,并通过随机航向偏移(±60°)提升数据多样性,为模型在不同机器人平台和真实场景中的泛化能力提供了坚实基础。
使用方法
该数据集支持场景无关位姿回归(SPR)、绝对位姿回归(APR)和相对位姿回归(RPR)等多种视觉定位任务。使用时需将全景图像调整为320×640(360SPR)或392×770(360Loc)分辨率,建议以5帧序列为单位输入SPR-Mamba等模型,首帧作为坐标系原点。对于位姿监督,推荐采用L1损失函数平衡平移(α=1)和旋转(β=10)误差,并通过四元数对数映射处理旋转参数以避免约束问题。在未知场景测试时,可采用15个保留场景进行跨场景泛化验证,其轨迹长度和传感器高度的系统变体可有效评估模型鲁棒性。
背景与挑战
背景概述
360SPR数据集由卡尔斯鲁厄理工学院、苏黎世联邦理工学院、湖南大学和MIT-IBM Watson AI Lab的研究团队于2025年提出,旨在解决视觉定位领域的关键挑战。该数据集包含超过20万张全景图像和360万张针孔图像,覆盖270个场景和3种不同传感器高度(0.1m、0.5m、1.7m),模拟了扫地机器人、四足机器人和人形机器人的视角。360SPR的核心创新在于支持场景无关的位姿回归(SPR)任务,突破了传统绝对位姿回归(APR)在未知场景中需要重新训练的局限,同时避免了相对位姿回归(RPR)对大规模图像检索数据库的依赖。该数据集通过Habitat模拟器构建,结合了HM3D和Matterport3D数据集的三维场景信息,为视觉定位研究提供了前所未有的数据规模和多样性。
当前挑战
360SPR数据集面临的挑战主要体现在两个方面:在领域问题层面,传统APR方法无法泛化至未知场景,RPR方法依赖庞大的图像检索数据库,而视觉里程计(VO)存在开放轨迹中的累积误差问题。360SPR提出的SPR范式需要同时解决这三个关键问题,即在未知场景中实现精确位姿预测,且不依赖场景特定训练或检索数据库。在构建层面,数据集需要处理多传感器高度带来的视角差异,确保全景图像拼接的质量,以及在不同轨迹长度和采样间隔下保持数据一致性。此外,模拟器生成的图像与真实场景存在域差距,需要人工校验超过20万张全景图像的质量,这一过程耗时超过300小时。
常用场景
经典使用场景
在计算机视觉领域,视觉定位是基础任务之一,360SPR数据集通过提供超过200K张全景图像和3.6M张针孔图像,为场景无关姿态回归(SPR)任务提供了丰富的基准数据。该数据集特别适用于研究相机姿态回归问题,尤其在未知环境中,无需重新训练或依赖大型数据库即可实现精准定位。其全景图像的大视场特性显著提升了姿态回归的准确性,为机器人导航、增强现实(AR)和虚拟现实(VR)等应用提供了可靠的数据支持。
解决学术问题
360SPR数据集解决了传统绝对姿态回归(APR)在未知环境中泛化能力不足的问题,同时避免了相对姿态回归(RPR)对大型图像检索数据库的依赖。通过引入场景无关姿态回归(SPR)任务,该数据集使得模型能够在任意场景中预测相机姿态,而无需重新训练或依赖场景特定特征。此外,360SPR还克服了视觉里程计(VO)在开放轨迹中累积误差的缺陷,为视觉定位研究提供了新的解决方案。
衍生相关工作
360SPR数据集的发布推动了多项相关研究的发展,尤其是基于全景图像的视觉定位方法。例如,SPR-Mamba模型通过双分支架构(局部分支和全局分支)显著提升了姿态回归性能。此外,该数据集还激发了针对跨设备查询的视觉定位研究(如360Loc),以及基于状态空间模型(SSM)的序列建模方法在视觉定位中的应用。这些衍生工作不仅验证了360SPR数据集的学术价值,也为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作