five

Global Building Semantic Segmentation (GBSS) dataset

收藏
arXiv2024-01-02 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2401.01178v1
下载链接
链接失效反馈
官方服务:
资源简介:
全球建筑语义分割(GBSS)数据集是由武汉大学遥感信息工程学院创建,包含约742,000个建筑实例,覆盖六大洲,总面积约1310平方公里。数据集通过结合OpenStreetMap和Google Maps的卫星图像,采用半自动化方法构建,旨在提供丰富的样本多样性和广泛的地理覆盖,以支持大规模建筑提取任务。该数据集特别适用于评估模型的泛化能力和鲁棒性,并可用于转移学习研究。

The Global Building Semantic Segmentation (GBSS) Dataset was created by the School of Remote Sensing Information Engineering, Wuhan University. It contains approximately 742,000 building instances, covers six continents, and spans a total area of about 1,310 square kilometers. Developed through a semi-automated approach that combines satellite imagery from OpenStreetMap and Google Maps, this dataset aims to provide rich sample diversity and extensive geographic coverage to support large-scale building extraction tasks. It is particularly suitable for evaluating the generalization ability and robustness of models, and can be used for transfer learning research.
提供机构:
武汉大学遥感信息工程学院
创建时间:
2024-01-02
搜集汇总
数据集介绍
main_image_url
构建方式
在遥感影像建筑提取领域,构建具有广泛代表性的数据集对推动算法泛化能力至关重要。GBSS数据集的构建采用半自动化流程,首先基于全球不透水面分析产品作为先验知识,结合OpenStreetMap的建筑矢量数据与Google卫星影像,在Google Earth Engine平台上筛选出潜在采样区域。随后,通过开发人机交互式样本采集软件,由专业遥感解译人员对候选样本池进行高质量筛选,剔除标注错误或质量不佳的样本,最终形成覆盖六大洲、包含约11.69万对样本的全球建筑语义分割数据集。
特点
该数据集在样本规模与多样性方面具有显著优势。其影像分辨率为0.25米,涵盖亚洲、非洲、欧洲、澳大利亚、北美洲和南美洲的建筑样本,建筑实例总数约74.2万个。样本在建筑尺寸与风格上呈现丰富变化:非洲以低层简单矩形建筑为主,亚洲多见高层复杂形态建筑,而澳大利亚、欧洲及南美洲则包含大量中大型复杂结构建筑。这种地理与形态的广泛覆盖,使得数据集能够有效评估模型在不同环境下的泛化性能与鲁棒性。
使用方法
GBSS数据集适用于大规模建筑提取模型的训练与评估。使用者可按约7:1:2的比例划分训练集、验证集与测试集,采用如DeepLabV3+等语义分割网络进行端到端训练。在训练过程中,可结合随机翻转与光度失真等数据增强技术以提升模型泛化能力。该数据集亦可用于迁移学习研究,通过在不同大洲子集上进行跨域实验,验证模型适应不同建筑风格与背景环境的能力。评估指标可选用交并比、精确率、召回率与F1分数等,以全面衡量建筑提取的准确性。
背景与挑战
背景概述
随着高分辨率遥感影像技术的飞速发展,从影像中精准提取建筑物轮廓已成为城市规划、人口估算及灾害评估等领域的关键技术。然而,现有建筑物语义分割数据集多局限于单一城市或区域,样本多样性与地理覆盖范围有限,难以支撑大规模、全球化建筑物提取的需求。为此,武汉大学的研究团队于近年构建了全球建筑物语义分割数据集(GBSS),该数据集涵盖六大洲约11.69万对样本,包含约74.2万栋建筑物实例,影像分辨率达0.25米。GBSS通过融合OpenStreetMap矢量数据与Google卫星影像,并借助全球不透水面产品作为先验知识,以半自动化方式构建,旨在为建筑物提取模型提供更具多样性与代表性的训练基准,推动遥感影像解译技术的泛化能力与鲁棒性评估。
当前挑战
在建筑物语义分割领域,核心挑战在于模型需应对全球范围内建筑物尺寸、形态及分布风格的巨大差异,例如小型建筑物易漏检、大型建筑物易过分割,且高密度城区与复杂背景干扰识别精度。GBSS数据集的构建过程亦面临显著困难:首先,依赖开放源数据(如OSM)导致初始样本存在标注错位、缺失或形状失真等问题,需投入大量人力进行交互式质检与修正;其次,全球尺度样本采集需平衡地理覆盖与样本质量,涉及先验知识筛选、多平台数据融合及大规模人工校验,流程复杂且资源消耗高昂。这些挑战共同凸显了大规模遥感数据集构建中质量控制和泛化能力提升的双重难题。
常用场景
经典使用场景
在遥感图像分析领域,全球建筑语义分割数据集(GBSS)为大规模建筑提取任务提供了关键基准。该数据集凭借其覆盖六大洲的116.9千对样本,以及约742千个建筑实例,成为评估语义分割模型泛化能力与鲁棒性的经典工具。研究者常利用GBSS训练深度神经网络,如DeepLabV3+架构,以应对不同地理区域建筑尺寸、形态及分布风格的多样性挑战,从而推动高分辨率遥感影像中建筑足迹自动提取技术的进步。
衍生相关工作
围绕GBSS数据集,学术界衍生出多项经典研究工作,主要集中在提升建筑提取模型的泛化性与效率。例如,研究者利用GBSS的跨大陆子集开展迁移学习实验,验证了模型在非洲杂乱背景或亚洲高层建筑区域的适应策略。同时,结合轻量化骨干网络如MobileNetV2,相关工作优化了大规模建筑提取的计算性能。这些衍生研究不仅深化了对建筑语义分割中样本多样性影响的理解,也为全球尺度遥感应用提供了方法论参考。
数据集最近研究
最新研究方向
随着高分辨率遥感影像技术的飞速发展,全球建筑语义分割(GBSS)数据集已成为推动大规模建筑提取领域前沿探索的关键资源。该数据集凭借其覆盖六大洲的广泛地理分布与丰富的建筑样本多样性,为模型泛化能力与鲁棒性评估设立了新的基准。当前研究热点聚焦于利用GBSS数据集进行跨区域迁移学习,以应对不同大陆间建筑风格与尺寸的显著差异,从而提升模型在复杂地理环境下的适应性与精度。此外,结合深度学习架构如DeepLabV3+与轻量化骨干网络(如MobileNetV2)的优化实验,进一步揭示了数据多样性对模型性能的深远影响,为城市规划和灾害评估等实际应用提供了更可靠的技术支撑。
相关研究论文
  • 1
    GBSS:a global building semantic segmentation dataset for large-scale remote sensing building extraction武汉大学遥感信息工程学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作