geospot-unified

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/sdan/geospot-unified

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于流式训练的WebDataset，主要包含地理定位相关的图像数据。数据集分为StreetView和其他数据两个主要部分，其中StreetView部分包括全景图像和单视图图像，其他数据部分包括单图像、行车记录仪图像、Mapillary序列和地面全景图像等。数据集的布局、清单和流式使用方法在README中有详细说明。此外，还提供了索引和分段的相关信息，包括元数据和可选的地理丰富数据。

创建时间：

2025-12-14

原始信息汇总

GeoSpot WebDataset (staged) 数据集概述

数据集基本信息

数据集名称：GeoSpot WebDataset (staged)
标签：webdataset, image, geolocation
主要用途：用于流式训练

数据内容与结构

数据集以WebDataset格式的.tar分片形式提供，便于流式读取。

数据布局

数据主要分为两大逻辑集合：

1. StreetView 数据 位于 data/streetview/ 路径下，包含以下子集：

data/streetview/sv2/：包含全景图JSON文件（使用lng字段）及四个朝向（.000/.090/.180/.270）的.jpg图像。
data/streetview/us_local/：包含单视角.jpg图像及对应的.json文件。
data/streetview/sv1/<country>/：按国家组织的、每个朝向的独立样本（文件命名如panoid_000.jpg与panoid_000.json）。

2. 其他数据 位于 data/other/ 路径下，包含以下子集：

data/other/mp16pro/, data/other/dress/：单张图像及JSON文件。
data/other/osv5m/：行车记录仪图像及JSON文件。
data/other/msls/：Mapillary序列图像（单张图像及JSON文件）。
data/other/cvcities/：地面全景.jpg图像、.sat字节数据及JSON文件。

数据清单与访问

分片列表位于 manifests/*.txt 文件中。
为进行流式访问，需将文件路径与Hugging Face的resolve URL前缀组合。
快速开始：
- 仅使用StreetView数据：manifests/streetview.txt
- 使用其他所有数据：manifests/other.txt

流式读取方法

推荐使用webdataset库进行流式读取，示例代码将数据解码为PIL图像并与JSON元组配对。

元数据与索引

分片级索引：metadata/shards.parquet 或 metadata/shards.jsonl 文件，包含域、组、路径、大小和划分信息。
地理信息增强：metadata/shards_enriched.parquet 与 manifests/geo/** 提供了可选的地理信息增强及按区域/国家的分片列表。这些文件可在主分片上传完成后，通过运行 scripts/hf_enrich_wds_metadata.py 脚本生成或更新。

重要说明

提供的 train/validation/test 清单是基于分片级别的哈希值进行划分的，并非基于地理空间的分割。
如需实现真实的地理位置留出划分，需要在训练时根据(lat, lon)坐标计算确定性的分割。

搜集汇总

数据集介绍

构建方式

GeoSpot WebDataset 的构建体现了多源地理空间图像数据的系统性整合。该数据集通过 WebDataset 格式组织，将街景图像与其他地理图像数据分别归档于逻辑集合中。街景部分融合了 SV2、US Local 及 SV1 等不同来源的全景与单视角图像，并配以 JSON 格式的元数据；其他数据则涵盖了 MP16Pro、Dress、OSV5M、MSLS 及 CVCities 等多个公开数据集，包含单图像、行车记录仪图像、序列图像及地面全景等多种类型。所有数据均以分片（shard）形式存储，便于流式读取与分布式处理。

特点

本数据集的核心特点在于其统一且高效的数据组织形式。采用 WebDataset 架构，将大规模图像与对应元数据封装于 .tar 分片中，显著优化了流式训练中的数据加载效率。数据内容具有高度的多样性与地理覆盖广度，不仅包含多角度街景全景，还整合了行车视角、地面全景及卫星图像片段等多种地理视觉模态。数据集提供了分片级别的索引文件与丰富的地理元数据，支持用户根据域、国家或区域进行灵活的数据子集选择与空间划分，为地理定位模型训练提供了结构清晰、易于扩展的数据基础。

使用方法

使用该数据集时，用户需首先通过 Hugging Face 仓库解析路径获取分片列表。数据集提供了按数据源（如街景或其他）预定义的分片清单，用户可直接加载这些清单并构建完整的流式数据 URL。在代码实现中，借助 WebDataset 库可便捷地建立数据管道，对分片进行解码并提取图像与 JSON 元数据对。对于需要地理空间划分的任务，建议基于数据点本身的经纬度坐标在训练时进行确定性划分，而非依赖预设的分片级划分。此外，可利用附带的元数据与脚本对分片进行地理信息增强，以支持更细粒度的区域化模型训练与分析。

背景与挑战

背景概述

GeoSpot Unified数据集由研究团队sdan于近期构建，旨在整合多源地理空间图像数据以支持大规模地理定位与场景理解任务。该数据集汇集了来自街景、车载摄像头及卫星图像等多种模态的视觉数据，并采用WebDataset格式进行高效流式处理，其核心研究问题聚焦于跨域地理空间视觉表征学习与精准定位。通过统一不同采集条件下的图像与元数据，该数据集为计算机视觉与地理信息科学交叉领域提供了重要的基准资源，推动了基于深度学习的自动化地理分析技术的发展。

当前挑战

该数据集致力于解决地理定位任务中因视角、光照及场景多样性导致的视觉表征歧义性挑战，同时需应对跨地域数据分布不均衡与标注稀疏性问题。在构建过程中，面临多源异构数据的标准化整合难题，包括不同坐标系转换、图像分辨率统一与元数据对齐；此外，大规模数据的高效存储与流式访问要求设计优化的分片策略与索引机制，以平衡存储开销与训练效率。

常用场景

经典使用场景

在计算机视觉与地理空间分析领域，GeoSpot数据集为地理定位研究提供了丰富的多源图像资源。其经典使用场景集中于训练和评估视觉地理定位模型，通过整合街景图像、车载摄像头画面及地面全景照片，模型能够学习从视觉内容中推断地理位置的能力。数据集以WebDataset格式组织，支持高效流式训练，便于大规模分布式计算环境下的模型优化与实验验证。

解决学术问题

该数据集有效解决了视觉地理定位中数据稀缺与多样性不足的学术挑战。通过统一多个公开数据集，如Mapillary序列和OpenStreetView图像，它提供了覆盖广泛地理区域的多视角样本，支持模型在复杂场景下的泛化性能研究。其意义在于促进了跨域地理定位算法的发展，为无GPS环境下的位置识别、城市感知等研究方向提供了可靠的数据基础。

衍生相关工作

围绕GeoSpot数据集，衍生了一系列经典研究工作，主要集中在视觉地理定位模型的架构创新与评估方法上。例如，基于其多源图像特性，研究者开发了融合街景与卫星图像的跨模态定位系统，提升了定位精度。此外，数据集还催生了针对地理分布偏差的公平性评估框架，推动了地理人工智能领域在数据划分与模型鲁棒性方面的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集