sp-swimming-pools

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/cloudwalk-research/sp-swimming-pools

下载链接

链接失效反馈

官方服务：

资源简介：

São Paulo游泳池检测数据集是一个基于航拍图像的目标检测数据集，旨在识别巴西圣保罗市范围内的游泳池。数据集由GeoSampa正射影像（0.4米/像素）切割成512×512的图块，并通过两种方式标注：Roboflow检测工作流和基于这些标签训练的YOLOv11检测器。数据集包含3,008个图块和7,374个边界框标注，分为train、val和weak三个子集。所有标注均为模型生成，未经人工验证，应视为银标准数据。数据集适用于目标检测任务，特别是地理空间和遥感应用。每个样本包含丰富的元数据，如图像路径、区域信息、坐标参考系统等。标注以COCO格式存储，仅包含pool一个类别。数据集采用CC-BY-4.0许可发布。

The São Paulo Swimming Pool Detection Dataset is an aerial imagery-based object detection dataset designed to identify swimming pools across the city of São Paulo, Brazil. The dataset is derived from GeoSampa orthorectified imagery at a resolution of 0.4 meters per pixel, cropped into 512×512 image tiles, and annotated using two pipelines: the Roboflow detection workflow and a YOLOv11 detector trained on these initial labels. It contains 3,008 image tiles and 7,374 bounding box annotations, split into three subsets: train, val, and weak. All annotations are model-generated without manual verification, and should be regarded as silver-standard data. This dataset is suitable for object detection tasks, particularly geospatial and remote sensing applications. Each sample includes rich metadata such as image path, regional information, coordinate reference system, and more. The annotations are stored in COCO format, with only the "pool" category included. This dataset is released under the CC-BY-4.0 license.

创建时间：

2026-04-29

原始信息汇总

数据集概述：São Paulo Swimming Pool Detection

基本信息

数据集名称：São Paulo Swimming Pool Detection
语言：英语
许可证：CC-BY-4.0
任务类型：目标检测（object-detection）
数据规模：1K < n < 10K（样本数）
标签：遥感、航拍图像、目标检测、游泳池、圣保罗、地理空间

数据来源与背景

该数据集基于巴西圣保罗市的GeoSampa正射影像（geoportal:ORTO_RGB_2020，约0.4 m/px分辨率），将影像切分为512 × 512像素的图块，并通过两种模型标注方式生成标签。

⚠️ 重要警告：所有标签均由模型生成，没有人工验证的真值。训练集/验证集和弱标签集均为“银标”质量，并非金标准。

数据集划分

划分	图块数	边界框数	AOI数量	标签来源
train	461	2,415	9	Roboflow工作流 `general-segmentation-api-3` @ 置信度0.25
val	115	655	9	Roboflow工作流 `general-segmentation-api-3` @ 置信度0.25
weak	2,432	4,304	38	`pool_v4` (YOLOv11s) @ 置信度0.25
总计	3,008	7,374	47

注意：train和val使用与训练pool_v4模型相同的v4_rf YOLO数据集划分（按图块在9个AOI中留出验证集）；不建议将weak划分混入验证集，以免与pool_v4比较时产生偏差。

数据模式（Schema）

每条记录对应一个512×512图块，存储在metadata.jsonl文件中，包含描述性元数据和标签（objects字段）。

主要字段

字段	类型	描述
`file_name`	string	图像路径，相对于划分文件夹
`image_id`, `tile_id`	string	稳定的AOI前缀图块ID（`<aoi>_<col>_<row>`）
`aoi`	string	AOI键（蛇形命名，如 `morumbi`）
`district`	string	GeoSampa市政区（大写）
`region`	string	圣保罗宏区域：`Oeste` / `Sul` / `Centro` / `Leste` / `Norte`
`col`, `row`	int	图块在AOI网格中的索引
`width`, `height`	int	始终为512
`gsd_m`	float	平均地面采样距离（米/像素）
`source_imagery`	string	影像来源
`crs_utm`	string	始终为`EPSG:31983`（SIRGAS 2000 / UTM zone 23S）
`bbox_utm`	[minx, miny, maxx, maxy]	UTM坐标下的图块范围（米）——权威坐标
`bbox_wgs84`	[minlon, minlat, maxlon, maxlat]	AOI角点线性插值（约1像素精度）
`label_source`	string	`roboflow_workflow` 或 `model:pool_v4@conf=0.25`
`n_objects`	int	该图块上的边界框数量
`objects`	dict	标签数据——COCO格式的边界框

标签字段（objects）

python { "bbox": [[x, y, w, h], ...], # COCO格式，左上角原点，像素单位 "category": [0, 0, ...], "category_name": ["pool", "pool", ...], "confidence": [null, ...] # null表示roboflow行，float表示模型行 }

仅有一个类别：pool（ID 0）。n_objects: 0的行表示有意选取的负样本（无游泳池的图块，作为训练中的难负样本）。

数据加载示例

python from datasets import load_dataset ds = load_dataset("cloudwalk-research/sp-swimming-pools") sample = ds["train"][0] sample["image"] # PIL.Image, 512×512 sample["objects"]["bbox"] # list of [x, y, w, h] in pixels sample["objects"]["category"] # list of class ids (always 0 = pool) sample["aoi"], sample["district"], sample["region"]

AOI选择

共47个AOI，覆盖圣保罗全部五个宏区域：

9个RF标注AOI：按密度等级和失败模式（屋顶泳池、太阳能板、密集市中心）选择
8个区域采样AOI（现属于weak分区）：首次手动城市扫描，追求社会经济多样性
30个分层采样AOI：按每个未采样区的土地面积比例抽取（每区一个AOI），实现对96个GeoSampa地区的均匀面积加权覆盖

47个AOI合计覆盖约122 km²（约占城市1,521 km²的8%），涵盖47个不同地区（约占城市土地面积的71%）。

标签来源说明

训练集/验证集：由托管Roboflow工作流 rodrigo-da-motta-cabral-de-carvalho/general-segmentation-api-3 在置信度0.25下标注（纯模型推理，无人工验证环节）
弱标签集：pool_v4（YOLOv11s，基于9个训练/验证AOI微调）在置信度0.25下的输出，在留出验证集上的mAP@50≈0.90，mAP@50-95≈0.64
注意：mAP衡量的是与Roboflow模型的一致性，而非绝对精度——两个模型可能以相同方式出错

已知的系统性假阳性模式

继承自上游流程：

太阳能板（Campo Belo及类似区域）
密集市中心区域（Centro/Sé）的亮色矩形屋顶
水箱

引用

bibtex @misc{cabralcarvalho2026sppools, title = {Mapping S{~a}o Paulo City Swimming Pools}, author = {Cabral-Carvalho, Rodrigo}, year = {2026}, note = {CloudWalk Research Team}, howpublished = {url{https://huggingface.co/datasets/cloudwalk-research/sp-swimming-pools}} }

来源与许可

影像来源：GeoSampa（圣保罗市政府），图层 geoportal:ORTO_RGB_2020
标签许可：CC-BY-4.0
底图许可：GeoSampa正射影像为圣保罗市政府发布的公共数据，使用需遵守GeoSampa的使用条款

搜集汇总

数据集介绍

构建方式

该数据集源自巴西圣保罗市GeoSampa项目的正射影像（空间分辨率约0.4米/像素），通过将影像切割为512×512像素的瓦片，并利用两种自动标注流程构建而成。训练集与验证集由Roboflow托管的分割模型（general-segmentation-api-3）以0.25置信度阈值生成，而弱标签集则基于YOLOv11s微调模型（pool_v4）的输出。所有标签均为模型生成，未经过人工校验，属于银标准级别。数据集覆盖全市五个宏观区域中的47个兴趣区，总面积约122平方公里，包含3008张影像与7374个边界框标注。

特点

该数据集聚焦于城市尺度的泳池目标检测，具有鲜明的遥感地理空间应用特性。其核心特点在于标签的模型化生成机制，训练集与弱标签集分别来自不同模型，质量存在差异但均非金标准。数据集的元数据详实，每张影像均记录了兴趣区、行政区域、UTM投影坐标以及地面采样距离等地理属性，便于空间分析。标签采用COCO格式，仅包含单一类别（泳池），并明确标注置信度来源。数据集还包含了故意无目标的负样本瓦片，以增强模型对复杂场景的判别能力。

使用方法

用户可通过Hugging Face的datasets库轻松加载该数据集，调用load_dataset函数即可获取训练、验证及弱标签三个子集。每张影像的标签内嵌于metadata.jsonl文件中，以objects字段提供COCO格式的边界框坐标与类别信息，无需额外注释文件。使用时需注意，训练集与弱标签集的模型来源不同，不宜混用验证以避免评估偏差。由于标签均为模型生成且存在系统性的误报模式（如太阳能电池板误判为泳池），在下游应用中建议加入人工审核步骤，以确保计数或分析的准确性。

背景与挑战

背景概述

该数据集由CloudWalk研究团队的Rodrigo Cabral-Carvalho于2026年创建，聚焦于巴西圣保罗市游泳池的航空影像目标检测任务。基于GeoSampa提供的0.4米/像素分辨率正射影像，数据集覆盖圣保罗五大宏观区域中的47个感兴趣区域（AOI），总面积约122平方公里，占城市面积的8%。其核心研究问题在于利用深度学习模型自动识别城市尺度的游泳池分布，为城市规划、水资源管理及流行病学研究提供高空间分辨率的基础数据。作为首个专门针对南美大都市游泳池检测的公开数据集，它填补了遥感目标检测在非正规建筑与高密度城区场景下的数据空白，为验证模型在复杂城市景观中的泛化能力提供了独特基准。

当前挑战

该数据集面临的领域挑战在于游泳池检测的细粒度与混淆性：单类目标形态多样（屋顶泳池、不规则形状泳池），且与太阳能电池板、水塔、浅色矩形屋顶等人工地物存在严重视觉混淆，易引发系统性误检。构建过程中的核心挑战体现在标签生成缺乏人工验证——所有标注均源于模型推理，无黄金标准真值：训练/验证集依赖Roboflow工作流模型输出，弱标签集由YOLOv11在相同标注上训练生成，两者可能共享相同的假阳性模式（如将光伏板误判为泳池）。尽管验证集上mAP@50≈0.90，该指标仅衡量与源模型的语义一致性而非绝对精度，导致下游应用必须额外引入人工审计步骤，制约了数据集作为独立评估基准的权威性。

常用场景

经典使用场景

在遥感目标检测领域，sp-swimming-pools数据集为城市基础设施的精细化识别提供了独特的基准。该数据集聚焦于巴西圣保罗市全域的泳池检测，基于0.4米分辨率的GeoSampa正射影像，切割为512×512像素的瓦片，并采用两种模型生成标注。其经典使用场景在于验证和对比不同目标检测算法在高分辨率遥感影像中识别小型、规则化人工地物的能力，尤其适用于评估模型在复杂城市背景下的泛化性能。由于数据覆盖了圣保罗五个宏观区域的47个感兴趣区，横跨不同社会经济密度和建筑纹理区域，研究者可借此探索泳池作为城市水文与居住密度代理指标的检测可行性。

衍生相关工作

围绕该数据集衍生了多项标志性工作，其中最具代表性的是pool_v4检测器系列。该工作以YOLOv11s为基座，在9个具有人工验证价值的RF标注区域上进行微调，并首次系统评估了模型对自身训练标签源的‘一致性幻觉’现象。此外，数据集推动了将Roboflow通用的分割-api-3工作流用于定制化泳池检测的流程标准化工作，相关代码（如label_roboflow.py）成为弱监督遥感标注的参考实现。在学术层面，研究团队基于数据集中空缺的TPC和FP比率信息，提出了适用于银标准数据的后验验证框架，影响了一批关于遥感标注不确定性量化与跨源标签校准的研究。该数据集还催生了针对圣保罗市中心密集建筑区的专题误检分析，为高虚警环境下的模型鲁棒性改进提供了实证基础。

数据集最近研究