SolarDK
收藏arXiv2022-12-02 更新2024-06-21 收录
下载链接:
https://osf.io/aj539/
下载链接
链接失效反馈官方服务:
资源简介:
SolarDK是一个高分辨率的城市太阳能板图像分类和定位数据集,由丹麦技术大学创建。该数据集包含23,417张手动标记的图像,用于分类,以及880个分割掩码。数据来源于GeoDanmark,涵盖了丹麦城市和乡村景观的大多数变种。创建过程中使用了Pigeon和Toronto Annotation Suite等工具进行手动标注。SolarDK旨在通过机器学习方法帮助政策制定者识别太阳能采用率较低的区域,支持绿色能源的进一步采用,并理解住宅太阳能电力采用情况。
SolarDK is a high-resolution urban solar panel image classification and localization dataset developed by the Technical University of Denmark. It contains 23,417 manually labeled images for classification tasks and 880 segmentation masks. Sourced from GeoDanmark, the dataset covers most variants of urban and rural landscapes across Denmark. Manual annotations were performed using tools such as Pigeon and Toronto Annotation Suite during its construction. SolarDK aims to assist policymakers in identifying regions with low solar adoption rates via machine learning methods, support further green energy adoption, and enhance understanding of residential solar power adoption scenarios.
提供机构:
丹麦技术大学
创建时间:
2022-12-02
搜集汇总
数据集介绍

构建方式
在遥感影像分析领域,构建高质量标注数据集对于推动太阳能光伏阵列自动识别技术至关重要。SolarDK数据集的构建采用了多源数据融合与人工标注相结合的策略。其核心部分基于丹麦地理空间数据库GeoDanmark的高分辨率航空影像,地面采样距离介于10至15厘米之间,影像采集于2021年春季。数据标注工作分为两个层面:分类数据通过Pigeon平台进行人工标注,涵盖哥本哈根大都市区两个行政区域的23,417幅影像;分割数据则借助多伦多标注套件进行AI辅助人工标注,生成了880个精细分割掩码。此外,团队还整合了丹麦建筑登记处的自报告数据,构建了一个覆盖全国城乡景观、包含超过10万幅影像的外源性分类数据集,极大地丰富了数据的地理多样性。
使用方法
为充分发挥SolarDK的科研价值,论文中系统规划了其使用方法。数据集已预先划分为训练集、验证集和测试集,其中Gentofte市用于训练与验证,Herlev市作为独立的测试集,确保了评估的公正性。研究者可利用该数据集在三种典型场景下进行基准测试:直接使用在ImageNet等通用域上预训练的模型进行零样本评估;利用BBR外源性数据对训练集中的少数类进行增强,以改善类别不平衡问题;对已在类似地理区域(如德国DeepSolarDE数据集)上训练的模型进行微调,以检验模型的跨域泛化能力。对于分割任务,数据集中提供的精确掩码可用于训练语义分割模型,并采用平均交并比等指标进行量化评估。所有数据均通过开放科学平台公开发布,便于全球研究者复现实验与推进前沿探索。
背景与挑战
背景概述
随着全球能源结构向可持续方向转型,太阳能光伏系统作为清洁能源的重要组成部分,其部署规模日益扩大。然而,光伏阵列的分布监测与精准识别成为能源政策制定与电网管理的关键挑战。在此背景下,丹麦技术大学的研究团队于2022年推出了SolarDK数据集,旨在通过高分辨率航空影像,为太阳能光伏阵列的分类与定位研究提供基准数据。该数据集涵盖丹麦城市与乡村区域,包含人工标注的分类与分割样本,以及基于国家建筑登记系统的自报告数据,为地理空间遥感领域的模型泛化能力评估提供了重要资源。
当前挑战
SolarDK数据集致力于解决遥感影像中光伏阵列的自动识别与定位问题,其核心挑战在于模型的地理泛化能力。由于影像采集受地面采样距离、拍摄角度、光照条件及大气扩散等因素影响,跨区域部署的模型常出现性能下降。数据构建过程中,研究团队面临标注一致性保障、类别不平衡处理,以及多源数据融合等难题。此外,如何利用有限标注样本提升模型在多样地理环境中的鲁棒性,亦是该领域亟待突破的关键。
常用场景
经典使用场景
在可再生能源与计算机视觉交叉领域,SolarDK数据集为高分辨率城市太阳能电池板图像分类与定位研究提供了关键基准。该数据集通过整合人工标注的精细样本与丹麦国家建筑登记系统的自报告数据,构建了覆盖城乡景观的多样化图像库。其经典应用场景集中于训练和评估深度学习模型,特别是针对卷积神经网络在遥感影像中识别光伏阵列的性能测试。研究者利用该数据集探索模型在跨地理区域泛化能力,通过精细调整预训练架构,推动太阳能基础设施自动检测技术的边界拓展。
解决学术问题
SolarDK数据集有效应对了地理空间机器学习中的域适应挑战,解决了现有模型在跨区域部署时性能显著下降的学术难题。通过提供丹麦全域的高分辨率图像样本,该数据集揭示了遥感神经网络在应对地面采样距离、拍摄角度和大气条件变异时的泛化局限。其构建促进了地理分布均衡的标注数据获取方法研究,为开发具有强泛化能力的太阳能检测算法奠定了实证基础,推动了计算机视觉在可持续能源监测领域的理论深化。
实际应用
该数据集的实际价值体现在支撑智能能源管理系统与政策制定工具的开发。电力传输系统运营商可利用基于SolarDK训练的模型,实时监测分布式光伏系统的空间分布与装机容量,优化电网频率平衡策略。城市规划部门能够借助该技术识别太阳能普及率较低的区域,针对性制定绿色能源激励政策。此外,能源研究机构可通过大规模光伏部署图谱分析,探索社会人口因素与清洁能源采纳之间的关联规律,为可持续能源转型提供数据驱动的决策支持。
数据集最近研究
最新研究方向
在遥感与计算机视觉交叉领域,SolarDK数据集的推出为城市太阳能电池板识别与定位研究注入了新的活力。该数据集以其高分辨率影像和涵盖丹麦城乡多样性的标注样本,显著推动了地理空间泛化能力的前沿探索。当前研究焦点集中于利用跨域预训练模型与自报告数据增强策略,以应对模型在部署至新地理区域时性能下降的挑战。例如,通过结合丹麦建筑注册局(BBR)的外部数据对少数类样本进行增强,有效提升了ConvNext与InceptionV3等架构在分类任务中的召回率与精确度。同时,分割任务中DeepLabV3Plus与FPN等模型的表现,凸显了多尺度特征融合在复杂城市场景中的重要性。这些进展不仅助力于精准绘制太阳能设施分布图,也为政策制定者优化绿色能源布局提供了可靠的技术支撑,在全球能源转型背景下具有深远的实践意义。
相关研究论文
- 1SolarDK: A high-resolution urban solar panel image classification and localization dataset丹麦技术大学 · 2022年
以上内容由遇见数据集搜集并总结生成



