GSV-Cities

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/amaralibey/gsv-cities

下载链接

链接失效反馈

官方服务：

资源简介：

GSV-Cities是一个大规模的视觉地点识别数据集，包含约530k张图像，超过62k个不同地点，分布在全球多个城市。每个地点至少由4张图像表示（最多20张），所有地点之间物理距离至少100米。

GSV-Cities is a large-scale visual place recognition dataset, comprising approximately 530k images and over 62k distinct locations distributed across multiple cities worldwide. Each location is represented by at least 4 images (up to 20), with a minimum physical distance of 100 meters between any two locations.

创建时间：

2022-10-06

原始信息汇总

GSV-Cities 数据集概述

数据集内容

图像数量: 约530,000张
地点数量: 超过62,000个不同的地点
地点分布: 全球多个城市
图像覆盖: 每个地点至少有4张图像，最多可达20张
地点间距: 所有地点之间物理距离至少100米

数据集组织

图像命名规则: city_placeID_year_month_bearing_latitude_longitude_panoid.JPG
数据集结构:

├── Images │ ├── City1 │ │ ├── ... │ ├── City2 │ │ ├── ... └── Dataframes ├── City1.csv ├── City2.csv ├── ...
数据帧内容: 包含每个城市的元数据，便于使用Pandas快速访问

数据集用途

性能提升: 可用于训练视觉地点识别模型，以达到新的最先进性能
快速训练: 训练模型速度极快，每个epoch预计10-15分钟
简化流程: 无需离线三元组挖掘，直接形成批次，简化预处理流程
快速原型: 无需等待多日模型收敛，适用于快速原型开发

训练模型评估

评估工具: 使用提供的Jupyter Notebook进行模型评估
评估指标: 包括R@1和R@5等，针对不同测试集如Pitts250k-test, Pitts30k-test, MSLS-val, Nordland等
预训练模型: 提供基于ResNet50的不同输出维度模型，详细性能指标见README中的表格

数据集访问

数据集托管: 托管于Kaggle平台，链接为Kaggle

搜集汇总

数据集介绍

构建方式

GSV-Cities数据集通过全球范围内的城市采集，构建了一个大规模的视觉地点识别数据集。该数据集包含了约53万张图像，涵盖了全球多个城市的6.2万个不同地点。每个地点至少由4张图像表示，最多可达20张，且所有地点之间的物理距离至少为100米。图像的命名方式为`city_placeID_year_month_bearing_latitude_longitude_panoid.JPG`，这种命名方式不仅便于探索，还增加了元数据的冗余，确保了数据的可访问性和完整性。

使用方法

GSV-Cities数据集的使用方法简便且灵活。用户可以通过提供的`main.py`脚本进行模型训练，并通过Jupyter Notebook中的评估脚本对训练模型进行评估。数据集的结构化命名和元数据文件使得用户可以使用Pandas等工具快速筛选和访问特定条件下的图像。例如，用户可以筛选出位于北半球、拍摄于2012年至2016年7月、每个地点至少有16张图像的数据子集。

背景与挑战

背景概述

GSV-Cities数据集是由Amar Ali-bey、Brahim Chaib-draa和Philippe Giguère等研究人员于2022年创建的，旨在推动视觉地点识别（Visual Place Recognition, VPR）领域的研究。该数据集包含了约53万张图像，涵盖了全球多个城市的6.2万个不同地点，每个地点至少有4张图像，最多可达20张。GSV-Cities的独特之处在于其高度准确的地面真实数据，所有地点之间的物理距离至少为100米，确保了数据的多样性和挑战性。该数据集的发布不仅为视觉地点识别提供了新的基准，还通过提出一种名为Conv-AP的全卷积聚合技术，显著提升了现有技术的性能。

当前挑战

GSV-Cities数据集在构建过程中面临了多重挑战。首先，收集和标注如此大规模的图像数据本身就是一项艰巨的任务，尤其是在确保每个地点的图像数量和多样性方面。其次，由于地点之间的物理距离要求，数据集的构建需要克服地理分布上的不均衡性。此外，视觉地点识别领域的核心挑战在于如何在不同光照、天气和视角条件下保持模型的鲁棒性。GSV-Cities通过提供高度准确的地面真实数据，简化了模型训练中的批量形成过程，但仍需解决如何在复杂环境中保持高识别准确率的问题。

常用场景

经典使用场景

GSV-Cities数据集在视觉地点识别领域中具有广泛的应用，其经典使用场景包括训练和评估视觉地点识别模型。该数据集通过提供全球多个城市的高精度地理标签图像，使得研究人员能够快速训练出高性能的地点识别模型。其独特的图像命名方式和数据组织结构，使得数据集的探索和使用变得极为便捷，尤其适用于需要快速原型设计和高效训练的场景。

解决学术问题

GSV-Cities数据集解决了视觉地点识别领域中常见的学术研究问题，如高精度地理标签的获取和大规模数据集的构建。该数据集通过提供超过62,000个不同地点的图像，每个地点至少有4张图像，且地点间物理距离至少100米，有效解决了地点识别中的数据稀疏性和地理相关性问题。此外，数据集的高精度标签和无需离线三元组挖掘的特点，显著提升了模型的训练效率和性能。

实际应用

GSV-Cities数据集在实际应用中具有广泛的前景，特别是在智能导航、自动驾驶和地理信息系统（GIS）等领域。通过利用该数据集训练的模型，可以实现高精度的地点识别和定位，从而提升导航系统的准确性和用户体验。此外，该数据集还可用于城市规划、环境监测和旅游推荐系统等应用，为多领域的智能化发展提供了强有力的数据支持。

数据集最近研究