sp-swimming-pools
收藏数据集概述:São Paulo Swimming Pool Detection
基本信息
- 数据集名称:São Paulo Swimming Pool Detection
- 语言:英语
- 许可证:CC-BY-4.0
- 任务类型:目标检测(object-detection)
- 数据规模:1K < n < 10K(样本数)
- 标签:遥感、航拍图像、目标检测、游泳池、圣保罗、地理空间
数据来源与背景
该数据集基于巴西圣保罗市的GeoSampa正射影像(geoportal:ORTO_RGB_2020,约0.4 m/px分辨率),将影像切分为512 × 512像素的图块,并通过两种模型标注方式生成标签。
⚠️ 重要警告:所有标签均由模型生成,没有人工验证的真值。训练集/验证集和弱标签集均为“银标”质量,并非金标准。
数据集划分
| 划分 | 图块数 | 边界框数 | AOI数量 | 标签来源 |
|---|---|---|---|---|
| train | 461 | 2,415 | 9 | Roboflow工作流 general-segmentation-api-3 @ 置信度0.25 |
| val | 115 | 655 | 9 | Roboflow工作流 general-segmentation-api-3 @ 置信度0.25 |
| weak | 2,432 | 4,304 | 38 | pool_v4 (YOLOv11s) @ 置信度0.25 |
| 总计 | 3,008 | 7,374 | 47 |
注意:train和val使用与训练pool_v4模型相同的v4_rf YOLO数据集划分(按图块在9个AOI中留出验证集);不建议将weak划分混入验证集,以免与pool_v4比较时产生偏差。
数据模式(Schema)
每条记录对应一个512×512图块,存储在metadata.jsonl文件中,包含描述性元数据和标签(objects字段)。
主要字段
| 字段 | 类型 | 描述 |
|---|---|---|
file_name |
string | 图像路径,相对于划分文件夹 |
image_id, tile_id |
string | 稳定的AOI前缀图块ID(<aoi>_<col>_<row>) |
aoi |
string | AOI键(蛇形命名,如 morumbi) |
district |
string | GeoSampa市政区(大写) |
region |
string | 圣保罗宏区域:Oeste / Sul / Centro / Leste / Norte |
col, row |
int | 图块在AOI网格中的索引 |
width, height |
int | 始终为512 |
gsd_m |
float | 平均地面采样距离(米/像素) |
source_imagery |
string | 影像来源 |
crs_utm |
string | 始终为EPSG:31983(SIRGAS 2000 / UTM zone 23S) |
bbox_utm |
[minx, miny, maxx, maxy] | UTM坐标下的图块范围(米)——权威坐标 |
bbox_wgs84 |
[minlon, minlat, maxlon, maxlat] | AOI角点线性插值(约1像素精度) |
label_source |
string | roboflow_workflow 或 model:pool_v4@conf=0.25 |
n_objects |
int | 该图块上的边界框数量 |
objects |
dict | 标签数据——COCO格式的边界框 |
标签字段(objects)
python { "bbox": [[x, y, w, h], ...], # COCO格式,左上角原点,像素单位 "category": [0, 0, ...], "category_name": ["pool", "pool", ...], "confidence": [null, ...] # null表示roboflow行,float表示模型行 }
仅有一个类别:pool(ID 0)。n_objects: 0的行表示有意选取的负样本(无游泳池的图块,作为训练中的难负样本)。
数据加载示例
python from datasets import load_dataset ds = load_dataset("cloudwalk-research/sp-swimming-pools") sample = ds["train"][0] sample["image"] # PIL.Image, 512×512 sample["objects"]["bbox"] # list of [x, y, w, h] in pixels sample["objects"]["category"] # list of class ids (always 0 = pool) sample["aoi"], sample["district"], sample["region"]
AOI选择
共47个AOI,覆盖圣保罗全部五个宏区域:
- 9个RF标注AOI:按密度等级和失败模式(屋顶泳池、太阳能板、密集市中心)选择
- 8个区域采样AOI(现属于
weak分区):首次手动城市扫描,追求社会经济多样性 - 30个分层采样AOI:按每个未采样区的土地面积比例抽取(每区一个AOI),实现对96个GeoSampa地区的均匀面积加权覆盖
47个AOI合计覆盖约122 km²(约占城市1,521 km²的8%),涵盖47个不同地区(约占城市土地面积的71%)。
标签来源说明
- 训练集/验证集:由托管Roboflow工作流
rodrigo-da-motta-cabral-de-carvalho/general-segmentation-api-3在置信度0.25下标注(纯模型推理,无人工验证环节) - 弱标签集:
pool_v4(YOLOv11s,基于9个训练/验证AOI微调)在置信度0.25下的输出,在留出验证集上的mAP@50≈0.90,mAP@50-95≈0.64 - 注意:mAP衡量的是与Roboflow模型的一致性,而非绝对精度——两个模型可能以相同方式出错
已知的系统性假阳性模式
继承自上游流程:
- 太阳能板(Campo Belo及类似区域)
- 密集市中心区域(Centro/Sé)的亮色矩形屋顶
- 水箱
引用
bibtex @misc{cabralcarvalho2026sppools, title = {Mapping S{~a}o Paulo City Swimming Pools}, author = {Cabral-Carvalho, Rodrigo}, year = {2026}, note = {CloudWalk Research Team}, howpublished = {url{https://huggingface.co/datasets/cloudwalk-research/sp-swimming-pools}} }
来源与许可
- 影像来源:GeoSampa(圣保罗市政府),图层
geoportal:ORTO_RGB_2020 - 标签许可:CC-BY-4.0
- 底图许可:GeoSampa正射影像为圣保罗市政府发布的公共数据,使用需遵守GeoSampa的使用条款




