RoofNet
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://www.kaggle.com/datasets/noellelaw/roofnet
下载链接
链接失效反馈官方服务:
资源简介:
RoofNet是一个多模态数据集,旨在进行屋顶材料分类。它包含了来自全球184个不同地理位点的超过51,500个样本,这些样本结合了高分辨率的地球观测(EO)图像和精心策划的文本注释。RoofNet包括14种关键的屋顶类型,如沥青瓦、粘土瓦和金属板。该数据集旨在通过视觉-语言建模(VLM)来提高全球暴露数据集的保真度。RoofNet通过将EO瓦片从气候和建筑风格不同的地区进行采样来构建一个具有代表性的数据集。一个子集的6,000张图像与领域专家合作进行了注释,以微调VLM。RoofNet还提供了丰富的元数据,包括屋顶形状、占地面积、太阳能电池板的的存在以及混合屋顶材料的指标。RoofNet支持可扩展的、人工智能驱动的风险评估,并作为评估模型在不同地区泛化能力的下游基准,为保险承保、灾害预防和基础设施政策规划提供有意义的见解。
RoofNet is a multimodal dataset designed for roof material classification. It contains over 51,500 samples sourced from 184 distinct geographic locations worldwide, which combine high-resolution Earth Observation (EO) imagery and carefully curated textual annotations. RoofNet covers 14 key roof types, such as asphalt shingles, clay tiles, and metal sheets. This dataset aims to enhance the fidelity of global exposure datasets through Vision-Language Modeling (VLM). RoofNet is constructed by sampling EO tiles from regions with diverse climates and architectural styles to create a representative dataset. A subset of 6,000 images was annotated in collaboration with domain experts for fine-tuning the VLM. RoofNet also provides rich metadata, including roof shape, footprint area, presence of solar panels, and metrics for mixed roof materials. RoofNet supports scalable, AI-driven risk assessment, and serves as a downstream benchmark for evaluating model generalization across different regions, providing meaningful insights for insurance underwriting, disaster prevention, and infrastructure policy planning.
提供机构:
纽约大学坦登工程学院机械与航空航天工程系
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
RoofNet数据集的构建采用了多阶段流程,以确保地理和建筑多样性。首先从气候和建筑风格迥异的地区选取城市样本,利用Overpass API获取OpenStreetMap元数据(如建筑足迹、高度、屋顶形状)并采样卫星图像瓦片。通过GroundingDINO模型对屋顶结构进行空间聚焦,并采用专家验证与视觉语言模型(VLM)协同标注的策略:6000张样本由领域专家手动标注,其余45,500张通过微调后的RemoteCLIP ViT-L/14模型分类,辅以基于规则的验证和人机回环校验。数据预处理阶段还针对低分辨率样本和城市环境中的结构模糊性进行了过滤与重分割处理。
特点
作为全球首个专注于屋顶材料分类的多模态数据集,RoofNet包含51,503个样本,覆盖184个地理多样性站点和14种关键屋顶材料类型(如沥青瓦、黏土瓦、金属板等)。其独特性体现在三方面:一是融合高分辨率地球观测影像与地理空间文本描述,支持视觉-语言联合学习;二是包含丰富的元数据(屋顶形状、面积、太阳能板状态等),为灾害脆弱性分析提供多维特征;三通过刻意采集热带、温带等不同气候区的样本,捕捉材料在环境作用下的视觉变异,显著提升了模型的跨区域泛化能力。数据集特别纳入玻璃板、茅草等罕见但灾害敏感的'长尾类别',弥补了传统暴露数据集的表征空白。
使用方法
RoofNet支持三种主要应用范式:其一,通过微调视觉语言模型实现全球尺度的屋顶材料自动分类,用户可利用预训练的RemoteCLIP基础模型加载数据集进行迁移学习;其二,结合附属的xBD灾害影像数据,可开展灾害前后的建筑材料变化分析,需注意分辨率差异带来的领域适应问题;其三,元数据与材料标签的联合使用能增强建筑脆弱性建模,例如将屋顶形状参数与材料类型结合评估风荷载风险。数据采用CC BY-NC 4.0许可,建议使用类平衡采样策略缓解材料分布不均问题,并对'未知'类别的预测结果进行人工复核以确保关键应用的可靠性。
背景与挑战
背景概述
RoofNet是由纽约大学Tandon工程学院的Noelle T. Law和Yuki Miura等人于2025年提出的全球多模态屋顶材料分类数据集,旨在解决自然灾害频发背景下建筑脆弱性建模中屋顶材料数据缺失的关键问题。该数据集包含来自184个地理多样性区域的51,500个样本,整合了高分辨率地球观测影像与专家标注的14类屋顶材料(如沥青瓦、黏土瓦、金属板等),并创新性地采用视觉语言模型(VLM)增强分类精度。作为首个开放获取的屋顶材料多样性数据集,RoofNet通过融合OpenStreetMap地理空间元数据,为灾害风险评估、保险精算及气候适应策略提供了细粒度的暴露建模基础,填补了传统建筑数据集在材料特异性表征上的空白。
当前挑战
RoofNet面临的挑战主要体现在两方面:领域问题层面,屋顶材料分类需克服全球不同气候区建筑风格的视觉差异(如热带金属屋顶与寒带涂层的反射特性差异),以及低分辨率灾后影像导致的细粒度材料辨识困难;数据构建层面,地理分布与材料类别的长尾分布(如茅草、聚碳酸酯板等稀有材料样本不足)要求采用类别平衡策略,而卫星影像与街景数据的异构性则需通过人工校验和规则验证来保证标注质量。此外,模型需平衡高分辨率训练数据与低分辨率灾后影像间的域适应问题,以支持灾害响应场景的泛化应用。
常用场景
经典使用场景
RoofNet数据集在自然灾害风险评估领域展现出卓越的应用价值,其高分辨率地球观测影像与多模态标注的结合,为建筑屋顶材料分类提供了全球尺度的基准数据。该数据集通过融合卫星遥感和开源地理空间数据,支持研究人员分析不同屋顶材料在飓风、地震等极端事件中的脆弱性差异,例如对比金属板材与黏土瓦片在台风中的抗风性能表现。
实际应用
在保险精算领域,保险公司利用RoofNet的材质分类结果优化承保策略,将金属屋顶与沥青瓦片的灾害损失概率差异纳入保费计算模型。城市规划部门则通过太阳能板分布等元数据,识别适合安装光伏设备的建筑群。灾后重建机构借助材料分布热力图,预判区域性建材短缺风险并优化供应链布局。
衍生相关工作
基于RoofNet的视觉语言模型微调框架催生了多项创新研究,包括将RemoteCLIP适配于低分辨率灾害影像的迁移学习方案,以及融合OSM建筑轮廓的多模态风险评估系统。在xBD数据集上的交叉验证工作进一步推动了预灾损预测模型的发展,相关成果已被应用于联合国减灾署的城市韧性评估工具链。
以上内容由遇见数据集搜集并总结生成



