geomix

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/sdan/geomix

下载链接

链接失效反馈

官方服务：

资源简介：

GeoMix是一个多源地理定位数据集，包含约4500万张地理定位图像，采用WebDataset格式。数据来源包括flickr（MP16 + DRESS Flickr）、msls（Mapillary Street Level Sequences）、osv5m（OpenStreetView 5M）、cvcities（CV Cities）、sv1（StreetView by country，3-heading）和sv2（StreetView panos，3-heading，180deg filtered）。

创建时间：

2025-12-14

原始信息汇总

GeoMix: Multi-Source Geolocation Dataset 数据集概述

基本信息

数据集名称: GeoMix: Multi-Source Geolocation Dataset
许可协议: CC BY-NC 4.0
标签: 地理定位、WebDataset、街景、视觉
数据规模: 10M 到 100M 之间
数据格式: WebDataset 格式（存储在 .tar 文件中）

数据内容

图像总数: 约 4500 万张地理定位图像
数据来源与构成:
- flickr: 624 个分片，包含 MP16 和 DRESS Flickr 数据
- msls: 1469 个分片，包含 Mapillary Street Level Sequences 数据
- osv5m: 4895 个分片，包含 OpenStreetView 5M 数据
- cvcities: 231 个分片，包含 CV Cities 数据
- sv1: 6714 个分片，包含按国家划分的 StreetView 数据（3个朝向）
- sv2: 21046 个分片，包含 StreetView 全景数据（3个朝向，经过 180 度过滤）

数据组织

配置名称: default
数据文件划分:
- 训练集 (train): 路径为 train/**/*.tar
- 验证集 (validation): 路径为 val/**/*.tar

数据访问示例

python import webdataset as wds ds = wds.WebDataset("hf://datasets/sdan/geomix/train/**/*.tar").decode("pil")

搜集汇总

数据集介绍

构建方式

GeoMix数据集通过整合多个来源的地理定位图像构建而成，涵盖了街景、社交媒体及开放地图平台等多种数据源。具体而言，该数据集融合了Flickr的MP16与DRESS子集、Mapillary街景序列、OpenStreetView 5M、CV Cities以及按国家划分的StreetView图像，总计约4500万张图像。这些图像以WebDataset格式组织，便于高效存储与流式加载，确保了数据处理的灵活性与扩展性。

特点

GeoMix数据集以其大规模、多源异构的图像集合为显著特点，覆盖了全球范围内的地理场景，包括城市街景、自然景观及人文环境。图像数据经过统一格式化处理，支持多视角与多时间点的地理定位分析，为计算机视觉与地理信息系统的交叉研究提供了丰富资源。数据集的多样性与规模使其适用于训练复杂的深度学习模型，以提升地理定位的准确性与鲁棒性。

使用方法

使用GeoMix数据集时，可通过WebDataset库直接加载图像流，实现高效的数据读取与预处理。用户需导入webdataset模块，指定数据集的路径与分割方式，例如训练集或验证集，并选择适当的解码方法如PIL图像处理。该格式支持并行加载与实时增强，便于集成到机器学习管道中，用于地理定位模型的训练、验证与测试，推动相关领域的技术进展。

背景与挑战

背景概述

GeoMix数据集由sdan团队于近期构建，旨在应对地理定位领域中多源视觉数据融合的核心研究问题。该数据集整合了来自Flickr、Mapillary Street Level Sequences、OpenStreetView、CV Cities及StreetView等多个公开平台的街景与地理图像，总计约4500万张图像，以WebDataset格式高效组织。其创建推动了跨域地理定位模型的发展，通过大规模多源数据增强了模型在复杂真实场景中的泛化能力与鲁棒性，为计算机视觉与地理信息系统的交叉研究提供了关键资源。

当前挑战

在地理定位领域，模型需从多样化的街景图像中精确推断地理位置，这面临视角变化、光照条件、季节更替及跨区域语义差异等挑战。GeoMix数据集构建过程中，研究人员需处理多源数据的异构性，包括图像分辨率、采集协议与标注标准的不一致；同时，大规模数据的清洗、去重与格式统一耗费显著计算资源，且需确保地理分布的平衡性以覆盖全球多样场景，避免偏差影响模型评估。

常用场景

经典使用场景

在计算机视觉与地理定位交叉领域，GeoMix数据集凭借其约4500万张多源街景图像，为地理定位任务提供了丰富且多样化的视觉数据。该数据集最经典的使用场景在于训练和评估跨视角图像匹配模型，例如通过对比街景图像与卫星视图或不同角度的地面拍摄图像，实现精准的地理坐标预测。其多源特性涵盖了Flickr、Mapillary、OpenStreetView等平台，确保了数据在光照、季节和视角上的广泛覆盖，从而支持模型在复杂真实世界环境中的泛化能力。

衍生相关工作

围绕GeoMix数据集，已衍生出一系列经典研究工作，特别是在跨视角地理定位和图像检索方向。例如，基于该数据集的模型训练推动了如NetVLAD、CosPlace等先进架构的优化，这些方法通过聚合局部特征实现高效的大规模图像匹配。同时，该数据集也促进了多任务学习框架的发展，结合地理定位与语义分割或目标检测，以提升场景理解的综合性。这些工作不仅拓展了地理定位技术的边界，还为视觉-语言模型在地理空间推理中的应用提供了重要参考。

数据集最近研究