five

buildings-extraction-coco-hf

收藏
Hugging Face2025-10-22 更新2025-10-23 收录
下载链接:
https://huggingface.co/datasets/tomascanivari/buildings-extraction-coco-hf
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个处理后版本的建筑物提取数据集,来源于Kaggle比赛。数据集包含训练集、验证集和测试集,图像大小调整为512x512。每个样本包括原始COCO元数据和注释、图像以及掩码。测试集不包含注释。
创建时间:
2025-10-22
原始信息汇总

Building Extraction Dataset 数据集概述

数据集来源

  • 基于Kaggle竞赛"Building Extraction Generalization 2024"数据集处理版本
  • 原始训练集和验证集图像及COCO标注已调整为(512, 512)尺寸

数据集结构

数据划分

  • 训练集:3,784个样本
  • 验证集:933个样本
  • 测试集:1,000个样本

存储信息

  • 下载大小:1,393,860,093字节
  • 数据集大小:1,442,314,003字节

数据特征

特征字段

  • image_info:包含文件名、高度、ID、宽度的COCO元数据
  • annotations:标准COCO标注格式
  • PIL_image:图像数据
  • PIL_annotation:掩码数据

标注详情

  • 红色通道:语义分割掩码
  • 绿色通道:实例分割掩码

任务类型

  • 图像分割

数据规模

  • 1K<n<10K级别

特别说明

测试集中的annotationsPIL_annotations列为占位符

搜集汇总
数据集介绍
main_image_url
构建方式
在建筑遥感影像分析领域,该数据集源自Kaggle建筑提取泛化竞赛的原始数据,经过系统重构以适应深度学习需求。构建过程中将原始训练集与验证集的图像及COCO标注统一缩放至512×512像素标准尺寸,并基于标注中的分割信息生成双通道掩码图像——红色通道编码语义分割标签,绿色通道承载实例分割信息,最终形成包含PIL图像与对应标注文件的标准化数据单元。
特点
该数据集呈现多维度技术特征,其标注体系深度融合COCO标准与双通道掩码创新设计。3784张训练图像与933张验证图像均配备精细的多层级标注,包括边界框、实例分割多边形及像素级语义标签;测试集则包含1000张无标注图像用于模型泛化评估。数据规模控制在千至万级样本区间,既满足深度学习训练需求,又保持轻量化特性,所有图像经尺寸归一化处理确保模型输入一致性。
使用方法
针对计算机视觉任务的应用场景,研究者可通过PIL_image字段直接加载预处理图像,利用PIL_annotation字段获取双通道分割真值。训练阶段可结合COCO格式的annotations字段实现目标检测与实例分割的多任务学习,验证集提供模型调优基准,测试集支持零标注预测评估。数据加载无需本地文件预处理,支持端到端的建筑提取模型开发流程。
背景与挑战
背景概述
建筑物提取作为遥感图像分析的核心任务,旨在从高分辨率卫星影像中精准识别建筑轮廓,对城市规划与灾害评估具有重要价值。本数据集源自2024年Kaggle建筑物提取泛化竞赛,由研究团队基于COCO标准重构而成,通过将原始图像统一缩放至512×512像素并融合语义分割与实例分割标注,为深度学习模型提供了标准化训练基础。该数据集的构建标志着遥感领域向精细化实例分割迈进的趋势,其多任务标注体系显著提升了模型在复杂城市场景中的泛化能力。
当前挑战
建筑物提取任务面临多重技术挑战:遥感影像中建筑尺度差异显著导致多尺度特征提取困难,密集城区建筑边缘粘连现象严重影响分割精度,而阴影遮挡与植被覆盖更易引发误检漏检。在数据集构建过程中,原始高分辨率图像的标准化处理需平衡细节保留与计算效率,双通道掩码标注要求精确协调语义与实例标签的映射关系,测试集缺失真实标注则对模型泛化性能评估提出了更高要求。
常用场景
实际应用
在城市规划与智慧城市建设中,该数据集支撑的建筑物提取技术具有广泛的实际应用价值。基于此数据集训练的模型能够快速生成城市建筑分布图,为城市规划部门提供决策支持;在灾害应急响应场景中,自动建筑物识别系统可协助评估受灾区域建筑损毁情况;此外,该技术还可应用于房地产评估、人口密度估算等民生领域,显著提升城市管理的智能化水平。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。在模型架构方面,研究者基于此数据集提出了多种改进的U-Net变体和注意力机制,以提升建筑物边界的分割精度;在算法创新层面,涌现出结合多尺度特征融合和边界优化策略的新型分割网络;同时,该数据集也催生了针对遥感图像特点的数据增强方法和跨域泛化研究,推动了整个领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作