OpenStreetView-5M

arXiv2024-04-29 更新2025-02-10 收录

下载链接：

https://github.com/gastruc/osv5m

下载链接

链接失效反馈

官方服务：

资源简介：

OpenStreetView-5M (OSV-5M) 是由 LIGM/ENPC/UGE 实验室创建的全球规模、开放获取的街景图像数据集，旨在推动现代计算机视觉方法在全局视觉地理定位领域的研究与应用。该数据集包含超过510万张地理参考的街景图像，覆盖225个国家和地区，训练集包含4894685张图像，测试集包含210122张图像，图像高度为512像素，平均宽度为792±127像素。数据来源于 Mapillary 平台，该平台汇集了全球用户的众包街景图像，并遵循 CC BY-SA 许可证，允许免费使用并标注来源。在创建过程中，研究者们首先在 Mapillary 平台的18亿张图像中，通过定义100×100米的全球网格，随机选择每个单元格中的一张图像，然后根据局部图像密度的负0.75次方权重进行训练集和测试集的采样。此外，还通过手工和学习型过滤器去除低质量图像，如模糊、曝光不当、紫色调异常等，并确保训练集和测试集在空间上至少相隔1公里，避免过度依赖于特定地点的特征。 OSV-5M 数据集广泛应用于计算机视觉领域的多个任务，如全球视觉地理定位、自监督学习和生成建模等。它为研究者提供了一个标准化的基准，用于评估和改进模型在地理特征学习和位置预测方面的性能，推动了在新闻、取证、历史与文化研究等领域的应用发展。数据集可通过 huggingface.co 平台访问，为全球研究者提供了一个开放且易于获取的资源.

The OpenStreetView-5M (OSV-5M) is a globally scaled, open-access street view image dataset created by the LIGM/ENPC/UGE laboratory, aimed at advancing research and application of modern computer vision methods in the field of global visual geolocation. The dataset comprises over 5.1 million georeferenced street view images, covering 225 countries and regions, with the training set containing 4,894,685 images and the test set containing 210,122 images. The images have a height of 512 pixels and an average width of 792±127 pixels. The data originates from the Mapillary platform, which aggregates crowd-sourced street view images from global users and is licensed under CC BY-SA, allowing free use with attribution. During the creation process, researchers first randomly selected one image from each cell of a 100×100-meter global grid from the 1.8 billion images on the Mapillary platform. The training and test sets were then sampled based on the negative 0.75 power of local image density. Additionally, low-quality images, such as blurred, improperly exposed, or abnormally purple-toned images, were manually and algorithmically filtered out. It was also ensured that the training and test sets were spatially separated by at least 1 kilometer to avoid over-reliance on specific location features. The OSV-5M dataset is widely used in various tasks within the field of computer vision, such as global visual geolocation, self-supervised learning, and generative modeling. It provides researchers with a standardized benchmark for evaluating and improving model performance in geographical feature learning and location prediction, promoting the development of applications in fields such as journalism, forensics, historical, and cultural studies. The dataset is accessible through the huggingface.co platform, offering a freely and easily accessible resource to researchers worldwide.

创建时间：

2024-04-29

原始信息汇总

OpenStreetView-5M 数据集概述

基本信息

数据集名称: OpenStreetView-5M
简介: 首个大规模开放的街景图像地理定位基准数据集。
项目页面: https://imagine.enpc.fr/~ioannis.siglidis/osv5m/
论文地址: https://arxiv.org/abs/2404.18873
演示地址: https://huggingface.co/spaces/osv5m/plonk

数据集详情

托管地址: https://huggingface.co/datasets/osv5m/osv5m
下载方式: 运行 python scripts/download-dataset.py
导入方式: 参见 DATASET.md

模型信息

最佳模型: https://huggingface.co/osv5m/baseline
模型使用示例: python from PIL import Image from models.huggingface import Geolocalizer

geolocalizer = Geolocalizer.from_pretrained(osv5m/baseline) img = Image.open(.media/examples/img1.jpeg) x = geolocalizer.transform(img).unsqueeze(0) gps = geolocalizer(x)
模型评估: 运行 python evaluation.py exp=eval_best_model dataset.global_batch_size=1024

实验复现

环境安装: bash conda env create -f environment.yaml conda activate osv5m
预处理: 运行 python scripts/preprocessing/preprocess.py data_dir=datasets do_split=1000
训练最佳模型: 运行 python train.py exp=best_model computer.devices=1 computer.num_workers=16 dataset.global_batch_size=2

引用

bibtex @article{osv5m, title = {{OpenStreetView-5M}: {T}he Many Roads to Global Visual Geolocation}, author = {Astruc, Guillaume and Dufour, Nicolas and Siglidis, Ioannis and Aronssohn, Constantin and Bouia, Nacim and Fu, Stephanie and Loiseau, Romain and Nguyen, Van Nguyen and Raude, Charles and Vincent, Elliot and Xu, Lintao and Zhou, Hongyu and Landrieu, Loic}, journal = {CVPR}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在视觉地理定位领域，构建高质量数据集面临图像可定位性不足与地理覆盖偏差等挑战。OpenStreetView-5M的构建过程采用了系统化的采样与过滤策略，从Mapillary平台的18亿张街景图像中精选出510万张。首先，通过全球100米×100米的网格进行均匀采样，并依据图像密度的负0.75次方加权，以平衡城市中心与偏远地区的代表性。随后，应用一系列手工与学习型过滤器，包括基于频谱分析的模糊度检测、亮度与色彩异常剔除，以及利用RotNet模型识别并校正旋转图像，有效移除了低质量与非可定位图像。为确保评估的严谨性，训练集与测试集之间严格实施了1公里的空间隔离与图像序列分离，防止模型通过记忆相邻图像或特定采集设备简化任务。

特点

OpenStreetView-5M的核心特点体现在其规模、质量与地理多样性上。数据集包含超过510万张街景图像，覆盖全球225个国家与地区，显著提升了视觉地理定位任务的基准规模。通过人工抽样评估，约96.1%的图像被确认为可定位，确保了数据的高信噪比，有利于模型学习稳健的地理表征。与现有基于网络爬取的数据集相比，该数据集显著减少了西方文化偏见，测试集在国家分布上呈现出0.78的归一化熵值，表明其具有高度的地理多样性。此外，每张图像均附有丰富的元数据，包括行政分区、土地覆盖类型、气候类别等，为多任务学习与模型可解释性研究提供了支持。

使用方法

该数据集主要用于训练与评估全球视觉地理定位模型。研究人员可依据官方划分，使用约489万张图像进行训练，21万张图像进行测试。典型的使用框架包括图像编码器与地理定位头两部分：编码器将输入图像映射为特征向量，定位头则将该向量转换为地理坐标或行政分区标签。评估时可采用多种指标，如哈弗辛距离、Geoscore以及基于行政边界的分类准确率，以全面衡量模型性能。数据集支持回归、分类及混合预测等多种监督方案，并可结合对比学习与辅助任务（如预测气候或土壤类型）以增强表征学习。相关代码与模型已开源，便于复现与进一步探索。

背景与挑战

背景概述

视觉地理定位作为计算机视觉领域的一项复杂任务，旨在通过图像像素推断其全球范围内的地理位置，对评估模型的地理与文化理解能力具有显著意义。长期以来，该领域因缺乏大规模、高质量且开放访问的标准化数据集而发展受限。为此，由法国LIGM实验室主导，联合多所高校与研究机构，于2024年正式发布了OpenStreetView-5M数据集。该数据集基于Mapillary平台，收录了超过510万张地理参考街景图像，覆盖全球225个国家与地区，其核心研究目标在于为视觉地理定位任务提供可靠的训练与评估基准，推动地理表征学习的发展，并对自动驾驶、文化遗产研究等领域产生深远影响。

当前挑战

OpenStreetView-5M所应对的核心领域挑战在于提升全球视觉地理定位的准确性与泛化能力，其需克服图像中地理线索的多样性与抽象性，如建筑风格、植被类型、交通标志等跨文化差异的融合理解。在数据集构建过程中，研究团队面临多重挑战：一是确保图像的高可定位性，需通过人工与自动化过滤机制剔除模糊、过曝或室内场景等低质量样本；二是实现训练集与测试集间的严格空间与序列分离，以避免模型简单记忆局部特征而非学习泛化地理表示；三是缓解地理分布偏差，尽管测试集力求均匀覆盖，训练集仍受用户上传行为影响，呈现西方国家的密度倾斜，这要求采样策略在平衡性与代表性间取得微妙权衡。

常用场景

经典使用场景

在计算机视觉领域，全球视觉地理定位任务旨在通过单张图像推断其拍摄的地理位置，这一任务对模型的场景理解与特征融合能力提出了极高要求。OpenStreetView-5M作为大规模、开放访问的街景图像数据集，其最经典的使用场景在于为地理定位模型提供标准化训练与评估基准。该数据集包含超过510万张地理参考图像，覆盖全球225个国家和地区，且通过严格的训练/测试分离机制，确保模型能够学习到泛化的地理表征而非简单记忆特定地点，从而推动地理定位算法在复杂真实环境中的性能提升。

衍生相关工作

围绕OpenStreetView-5M，已衍生出一系列经典研究工作，推动了地理定位方法论的演进。基于该数据集的基准测试系统比较了多种图像编码器、空间表示与训练策略，如ViT、CLIP等预训练架构在几何编码任务上的适应性验证。在方法层面，结合四叉树划分的混合预测模型、分层监督机制以及区域对比学习目标等设计，显著提升了坐标回归与区域分类的精度。同时，该数据集也被用于评估如GeoEstimator、StreetCLIP等先进地理定位模型，促进了检索式、分类式及混合式方法的融合与创新，为后续研究提供了可复现的实验框架与性能标杆。

数据集最近研究