Unified Dataset in SelaVPR++

github2026-02-09 更新2026-02-12 收录

下载链接：

https://github.com/Tong-Jin01/Unified_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该官方仓库旨在指导用户从零开始构建一个统一的数据集，用于训练更强大的VPR模型。SelaVPR++方法采用标准的GSV-Cities训练框架（完全监督的度量学习与多相似性损失）。因此，其他VPR数据集（如Pitts30k-train和MSLS-train）需要重新调整以与GSV-Cities对齐。

This official repository aims to guide users to build a unified dataset from scratch for training more robust Visual Place Recognition (VPR) models. The SelaVPR++ method adopts the standard GSV-Cities training framework (fully-supervised metric learning with multi-similarity loss). Therefore, other VPR datasets such as Pitts30k-train and MSLS-train need to be readjusted to align with GSV-Cities.

创建时间：

2026-02-08

原始信息汇总

Unified Dataset in SelaVPR++ 数据集概述

数据集目的

用于训练更鲁棒的视觉地点识别模型。
为SelaVPR++方法提供统一的训练数据集。

数据集构成与结构

数据集通过整合多个现有VPR数据集构建。
采用与GSV-Cities数据集对齐的目录结构。
标准目录结构示例如下：

├── Unified_dataset └── datasets_vg └── datasets └── pitts30k └── images ├── train │ ├── database │ └── queries ├── val │ ├── database │ └── queries └── test ├── database └── queries

数据处理流程

Pitts30k-train数据集处理

预处理：执行 python3 preprocess_pitts30k.py。
图像分类：使用CosPlace框架将地点图像划分为有限类别。
- 命令：python3 train.py --dataset_folder=/path/to/your/Unified_dataset/pitts30k/images --M=15 --N=3 --L=2 --alpha=60 --groups_num=18。
格式对齐：执行 python3 benchmark.py 以与GSV-Cities格式对齐。
清理：处理完一个城市后，必须删除 train.py 执行过程中生成的 cache 文件夹和所有 output.csv 文件。

MSLS-train数据集处理

预处理：执行 python3 preprocess_msls.py。
图像分类：需按城市逐一处理。
- 对于安曼和内罗毕：python3 train.py --dataset_folder=/path/to/your/Unified_dataset/Mapillary_sls/amman/images --M=15 --N=3 --L=2 --alpha=60 --groups_num=17。
- 对于其他城市：python3 train.py --dataset_folder=/path/to/your/Unified_dataset/Mapillary_sls/trondheim/images --M=15 --N=3 --L=2 --alpha=60 --groups_num=18。
格式对齐：执行 python3 benchmark.py。
顺序要求：必须完全完成一个城市的处理后再处理下一个城市。

SF-XL数据集处理

图像分类：由于数据集规模极大，仅使用一个组。
- 命令：python3 train.py --dataset_folder=/path/to/your/datasets_vg/datasets/sf_xl/images --M=10 --N=5 --L=2 --alpha=60 --groups_num=1。
格式对齐：执行 python3 benchmark.py。

数据集合并与使用

所有城市处理完成后，将生成的每个城市文件夹（例如Pitts30K0）移动到 /path/to/your/datasets_vg/datasets/gsv_cities/Images/。
将相应的CSV文件（例如Pitts30k0.csv）移动到 /path/to/your/datasets_vg/datasets/gsv_cities/Dataframes/。
处理后的数据可与GSV-Cities数据集结合用于训练。

搜集汇总

数据集介绍

构建方式

在视觉位置识别领域，构建统一数据集是提升模型泛化能力的关键步骤。SelaVPR++方法通过整合多个现有数据集，如Pitts30k-train、MSLS-train及SF-XL，并采用GSV-Cities的训练框架进行标准化重构。具体流程包括对每个数据集进行预处理，利用CosPlace框架将场景图像按地理类别划分，并通过调整参数如M、N、L及alpha来优化分类粒度。最终，通过benchmark.py脚本将数据格式对齐至GSV-Cities标准，确保多相似度损失的全监督训练得以实施，从而形成一个结构一致、规模庞大的统一数据集。

使用方法

使用该数据集时，需按照指定目录结构组织数据，并依次运行预处理、分类和对齐脚本。对于Pitts30k-train和MSLS-train，需分别执行preprocess_pitts30k.py和preprocess_msls.py进行初始处理，然后通过train.py结合CosPlace框架进行图像分类，其中MSLS-train需按城市逐一处理以确保准确性。SF-XL数据集则因规模庞大而采用简化分组策略。完成所有处理后，将生成的文件夹和CSV文件移动至GSV-Cities的对应路径，即可与原始GSV-Cities数据合并，用于训练基于多相似度损失的视觉位置识别模型，支持全监督学习并优化模型性能。

背景与挑战

背景概述

视觉位置识别（VPR）作为计算机视觉与机器人领域的关键研究方向，致力于解决基于视觉信息的场景定位与检索问题。SelaVPR++方法所依托的统一数据集构建工作，源于对现有VPR数据集标准化整合的需求，旨在通过融合Pitts30k、MSLS及SF-XL等异构数据集，构建一个与GSV-Cities框架对齐的大规模训练资源。该数据集由研究团队在近期提出，核心目标在于提升VPR模型在复杂环境下的泛化能力与鲁棒性，通过结构化重组与监督学习策略，推动跨数据集协同训练的发展，为视觉定位系统的实际应用奠定数据基础。

当前挑战

构建统一数据集面临多重挑战：在领域问题层面，视觉位置识别需应对视角变化、光照差异、季节更替及动态遮挡等复杂场景下的图像匹配难题，要求模型具备高度的不变性表征能力。在数据集构建过程中，挑战主要集中于异构数据的格式对齐与标准化，例如将Pitts30k、MSLS等数据集的原始结构重组为GSV-Cities所需的层级目录；同时，大规模数据如SF-XL的高效处理与类别划分，以及跨城市样本的序列化处理以避免缓存干扰，均对数据流水线的设计与执行精度提出了严格要求。

常用场景

经典使用场景

在视觉位置识别领域，Unified Dataset in SelaVPR++ 数据集为研究者提供了一个标准化的训练框架，其经典使用场景在于整合多个异构的视觉位置识别数据集，如 Pitts30k-train、MSLS-train 和 SF-XL，通过统一的预处理和格式对齐流程，构建一个大规模、多样化的训练集。这一过程使得模型能够在统一的监督学习范式下，利用多相似性损失函数进行端到端的训练，从而提升模型在复杂环境中的泛化能力和鲁棒性，为后续的跨数据集评估和模型优化奠定基础。

解决学术问题

该数据集主要解决了视觉位置识别研究中数据异构性和训练标准不统一的核心学术问题。通过将不同来源、不同采集条件的数据集整合到 GSV-Cities 的框架下，它消除了数据格式和标注体系的差异，使得研究者能够专注于模型架构和损失函数的创新。这一整合不仅促进了跨数据集的公平比较，还推动了监督学习在视觉位置识别中的应用，为解决视角变化、光照差异和季节性变迁等挑战提供了可靠的数据支撑，对领域内的算法评测和理论进展具有深远意义。

实际应用

在实际应用中，Unified Dataset in SelaVPR++ 数据集为自动驾驶、机器人导航和增强现实系统提供了关键的数据基础。通过整合多城市、多场景的图像数据，训练出的视觉位置识别模型能够更准确地在大规模环境中进行实时定位与地图构建。例如，在自动驾驶车辆中，该数据集支持的模型可以快速匹配车载摄像头捕获的街景与预先构建的地图数据库，实现厘米级的定位精度，从而提升导航系统的可靠性和安全性，满足智慧城市和移动计算领域的迫切需求。

数据集最近研究