WHU-Mix建筑数据集
收藏arXiv2022-10-17 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2208.10004v2
下载链接
链接失效反馈官方服务:
资源简介:
WHU-Mix建筑数据集是一个大规模、多样化的开放源数据集,旨在促进高分辨率遥感图像中的建筑提取研究。该数据集包含来自全球约58个城市的51,445个512x512像素的图像,覆盖面积约1213平方公里。数据集分为训练/验证集和测试集,其中训练/验证集包含43,727个图像,测试集包含8,402个图像。数据集的图像来自不同的遥感平台和传感器,具有不同的空间分辨率和建筑风格,这对于提高深度学习模型的泛化能力至关重要。此外,数据集提供了高质量的标签,所有图像和相应的建筑标签图均以TIFF格式存储,标签图是布尔图,其中建筑像素和背景分别表示为255和0。WHU-Mix建筑数据集不仅用于训练具有强大泛化能力的建筑提取模型,还用于在更实际的场景中适当地评估模型的性能,旨在解决现有数据集多样性不足和标签质量不高的问题。
The WHU-Mix Building Dataset is a large-scale, diverse open-source dataset developed to advance research on building extraction from high-resolution remote sensing images. It contains 51,445 512×512 pixel images sourced from approximately 58 cities worldwide, covering a total area of around 1,213 square kilometers. The dataset is split into a training/validation subset and a test subset, with 43,727 images in the training/validation set and 8,402 images in the test set. The images are collected from various remote sensing platforms and sensors, featuring diverse spatial resolutions and building styles, which is critical for enhancing the generalization ability of deep learning models. Additionally, the dataset provides high-quality annotations: all images and their corresponding building label maps are stored in TIFF format, and the label maps are binary maps where building pixels and background pixels are denoted as 255 and 0, respectively. The WHU-Mix Building Dataset is intended not only for training building extraction models with strong generalization capabilities but also for properly evaluating model performance in more realistic scenarios, aiming to address the issues of insufficient diversity and low-quality labels in existing datasets.
提供机构:
武汉大学遥感信息工程学院
创建时间:
2022-08-22
搜集汇总
数据集介绍

构建方式
为了解决现有建筑数据集多样性不足、标注质量不佳以及难以用于训练具有良好泛化能力的建筑提取模型等问题,本研究构建了一个名为WHU-Mix建筑数据集的新数据集。该数据集包含来自世界各地的43,727张训练/验证图像,以及来自五个不同大洲五个城市的8,402张测试图像。数据集的构建过程包括收集现有数据集、修订现有数据集的标注错误以及收集新样本。对于现有数据集,例如WHU建筑数据集和Inria数据集,研究团队对其进行了整合和利用,并收集了大量新样本以丰富数据集的多样性。对于标注错误的数据集,例如Inria数据集、SpaceNet数据集和LAIS数据集,研究团队对其进行了手动修正,确保了数据集的高质量标注。此外,研究团队还从中国和纽西兰的两个城市收集了新样本,并将其纳入测试集中。
特点
WHU-Mix建筑数据集具有以下特点:1) 大规模、广分布和多样性:该数据集包含来自世界各地的约58个城市,覆盖面积约1213平方公里,包含各种建筑风格和地理分布,有助于提高深度学习模型的泛化能力。2) 高精度和统一格式:研究团队对现有数据集的标注进行了检查和修正,并对新收集的图像进行了手动标注和双倍检查,确保了数据集的高精度标注。此外,数据集采用了统一的格式存储,方便使用。3) 无地理重叠:训练集和测试集之间没有地理重叠,使得建筑提取任务更具挑战性,从而更有效地评估模型的泛化能力。
使用方法
WHU-Mix建筑数据集可用于训练和评估建筑提取模型。用户可以使用该数据集训练自己的模型,或者使用已训练好的模型进行测试。在训练过程中,用户可以使用数据集提供的训练/验证集进行模型训练,并使用测试集评估模型的泛化能力。在测试过程中,用户可以使用测试集评估模型的性能,并与其他数据集进行比较。此外,WHU-Mix建筑数据集还可以用于评估模型的标注质量,例如通过比较使用原始标注和使用修正标注的模型性能差异,可以评估标注错误对模型性能的影响。
背景与挑战
背景概述
建筑提取作为遥感图像处理的重要任务,在地图制作、人口密度估计、土地利用管理和城市规划等领域发挥着重要作用。然而,现有的建筑数据集普遍存在多样性不足、标签质量不佳以及难以训练具有良好泛化能力的建筑提取模型等问题。为了解决这些挑战,武汉大学遥感信息工程学院的卢牧英、贾顺平等研究人员于2022年构建了一个名为WHU-Mix的建筑数据集,旨在为建筑提取研究提供更具实践导向的数据基础。该数据集包含来自世界各地的43,727张多样化图像的训练/验证集,以及来自五大洲五个城市的8,402张图像的测试集。此外,为了进一步提升建筑提取模型的泛化能力,研究人员提出了名为批量风格混合(BSM)的新型域泛化方法,该方法可以作为高效的即插即用模块嵌入到建筑提取模型的前端,为模型提供逐步增大的数据分布,以学习数据不变知识。实验结果表明,WHU-Mix建筑数据集在提高建筑提取模型性能方面具有巨大潜力,与其他现有数据集相比,mIoU提高了6%–36%。BSM模块在增强模型的泛化能力和鲁棒性方面也表现出色,超过了没有域泛化的基线模型以及最近的域泛化方法。
当前挑战
WHU-Mix建筑数据集和相关研究面临的挑战主要包括:1) 所解决的领域问题:现有的建筑数据集缺乏多样性,标签质量不佳,难以用于训练具有良好泛化能力的建筑提取模型,从而无法在真实场景中恰当地评估模型的真实性能。2) 构建过程中所遇到的挑战:数据收集、标注和修正过程耗时费力,且需要确保数据质量和多样性。
常用场景
经典使用场景
WHU-Mix建筑数据集广泛应用于高分辨率遥感图像中的建筑物提取任务,为地形图制作、人口密度估计、土地利用管理和城市规划等领域提供数据支持。该数据集的多样性和高精度标签使得训练出的建筑物提取模型具有更强的泛化能力,能够在实际场景中更准确地评估模型性能。
实际应用
WHU-Mix建筑数据集在实际应用中表现出色,例如,在人口密度估计、土地利用管理和城市规划等领域,该数据集能够帮助研究人员更准确地识别和提取建筑物信息,从而为相关决策提供数据支持。此外,该数据集还可以用于训练自动驾驶汽车中的环境感知系统,帮助车辆更准确地识别道路上的建筑物。
衍生相关工作
基于WHU-Mix建筑数据集,研究人员提出了许多新的建筑物提取算法,例如,基于深度学习的建筑物提取模型和基于图卷积网络的建筑物提取模型等。这些算法在WHU-Mix建筑数据集上取得了优异的性能,并在实际应用中得到了广泛的应用。此外,该数据集还促进了建筑物提取领域的发展,例如,推动了建筑物提取算法的优化和改进,以及新的建筑物提取任务的探索和研究。
以上内容由遇见数据集搜集并总结生成



