CubiCasa5K
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/rbg-research/Floor-Plan-Detection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一组用于对象检测和房间识别的平面图图像集合。在此次研究中,特别挑选了90张图像用于测试所提出模型的性能,并通过超分辨率技术对其进行增强处理。这项任务的主要目标是进行对象检测和房间检测。
This dataset is a collection of floor plan images intended for object detection and room recognition. In this study, 90 images were specifically selected to test the performance of the proposed model, and they were enhanced via super-resolution techniques. The primary goals of this task are object detection and room detection.
提供机构:
CubiCasa
搜集汇总
数据集介绍

构建方式
在建筑信息数字化浪潮中,CubiCasa5K数据集的构建体现了对高质量标注数据的追求。该数据集源自芬兰地区的房地产营销材料,从超过15000幅原始户型图图像中精心筛选出5000幅样本,并依据图像质量与风格划分为高质建筑、高质和彩色三个子类。标注工作由专业人员在定制化CAD工具辅助下完成,遵循严格的协议对墙体、房间、门窗及固定家具等超过80类元素进行多边形标注,确保了几何与语义信息的精确性。为确保标注一致性,每幅图像均经过标注者自查与独立质检人员的双重审核流程,从而形成了兼具规模与精度的标注体系。
特点
CubiCasa5K的显著特点在于其规模与标注的丰富性。作为当前公开的最大户型图数据集,它包含5000幅图像,数量是先前最大数据集的五倍以上,为深度学习模型提供了充足的训练样本。数据集中涵盖超过80种细粒度对象类别,标注以矢量多边形形式呈现,能精确捕捉对象的形状与朝向,超越了传统像素级标注的局限性。此外,数据集在户型类型与绘图风格上呈现高度多样性,涵盖了从简约到复杂的多种建筑布局,增强了模型的泛化能力。
使用方法
该数据集主要用于推动户型图图像自动解析研究。研究者可将其用于训练多任务卷积神经网络,以同时完成房间与图标的分割、以及关键点(如墙体质心、图标角点)的热图回归任务。数据集的官方划分包含4200幅训练图像、400幅验证图像和400幅测试图像,支持端到端的模型训练与评估。典型使用流程包括:利用数据集训练改进的多任务不确定性损失网络,通过后处理模块将网络输出的分割图与热图转化为矢量多边形,最终重建为包含几何与语义信息的CAD格式。数据集与相关代码已开源,便于复现基准结果并促进新方法的开发。
背景与挑战
背景概述
随着建筑室内环境建模需求的日益增长以及增强现实与虚拟现实技术的迅猛发展,自动化解析平面图图像已成为计算机视觉领域的重要研究方向。然而,该领域长期缺乏具有代表性的大规模标注数据集,严重制约了深度学习模型的性能提升与算法创新。为填补这一空白,阿尔托大学与CubiCasa公司于2019年联合发布了CubiCasa5K数据集,该数据集包含5000张经过精细标注的平面图图像,涵盖超过80种室内元素类别。通过采用多边形标注方式精确勾勒物体轮廓,该数据集为从栅格化图像中恢复结构化几何与语义信息这一核心问题提供了关键研究基础,显著推动了自动平面图分析技术的发展,成为该领域规模最大、标注最丰富的基准数据集之一。
当前挑战
CubiCasa5K数据集致力于解决平面图图像自动解析这一复杂任务,其核心挑战在于如何从丢失结构化信息的栅格化图像中,准确恢复墙体、房间、门窗及固定家具等元素的几何形状与语义类别。这一过程需要同时处理像素级语义分割、关键点定位等多重子任务,对模型的表征学习能力提出极高要求。在数据集构建过程中,研究团队面临标注一致性保障的严峻挑战,由于平面图元素间存在复杂的空间约束关系(如墙体构成房间边界),需要设计专门的标注流程与质量控制机制。此外,数据来源的多样性导致图像质量、绘制风格及元素复杂度差异显著,如何建立统一且精确的标注规范,确保超过80类物体在多尺度图像中的标注准确性,成为数据集构建的关键难点。
常用场景
经典使用场景
在建筑信息数字化与计算机视觉交叉领域,CubiCasa5K数据集为自动解析平面图图像提供了关键支撑。其经典应用场景集中于训练和评估多任务卷积神经网络,以从光栅化平面图中恢复几何结构与语义信息。通过密集标注的80余类对象多边形,该数据集使研究者能够开发端到端管道,实现墙面、房间、图标及开口的精确检测与矢量化重建,为后续三维建模奠定基础。
衍生相关工作
受CubiCasa5K启发,后续研究衍生出多项经典工作。例如,结合不确定性损失的多任务网络架构得到进一步优化,部分研究引入了目标检测模块以增强图标识别。同时,数据集的公开促进了跨领域方法的融合,如将多边形RNN++用于直接预测矢量元素,推动了平面图解析向端到端可微分管道的演进。这些工作共同拓展了文档图像分析在深度学习时代的技术边界。
数据集最近研究
最新研究方向
在建筑信息模型与计算机视觉交叉领域,CubiCasa5K数据集的推出显著推动了室内平面图自动解析技术的前沿探索。当前研究聚焦于利用多任务卷积神经网络架构,通过引入不确定性损失函数实现任务权重的自适应优化,从而提升对超过80类平面图元素的几何与语义重建精度。这一进展与增强现实、虚拟现实及智能建筑管理系统的兴起紧密相连,为大规模房地产数字化、三维模型自动生成等应用提供了关键技术支撑。该数据集以其大规模、高密度标注的特性,成为评估新型深度学习模型性能的重要基准,促进了领域内从启发式方法向数据驱动范式的深刻转变。
相关研究论文
- 1CubiCasa5K: A Dataset and an Improved Multi-Task Model for Floorplan Image Analysis阿尔托大学 · 2019年
以上内容由遇见数据集搜集并总结生成



