ArchCAD-400K
收藏arXiv2025-04-02 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2503.22346v2
下载链接
链接失效反馈官方服务:
资源简介:
ArchCAD-400K是一个大规模的CAD数据集,由同济大学、华东建筑集团股份有限公司和上海人工智能实验室等机构共同创建。该数据集包含5538个完整绘图,共计413062个经过精细标注的片段,涵盖了27个语义类别,包括结构构件、非结构元素和绘图标注等。ArchCAD-400K在规模、绘图多样性和细粒度标注方面均超过现有的CAD数据集,为建筑行业AI模型的进步提供了强有力的支撑。
ArchCAD-400K is a large-scale CAD dataset co-created by institutions including Tongji University, East China Architectural Design & Research Institute Group Co., Ltd., and Shanghai AI Laboratory. This dataset contains 5,538 complete drawings, with a total of 413,062 finely annotated segments, covering 27 semantic categories including structural members, non-structural elements, drawing annotations and so on. ArchCAD-400K outperforms existing CAD datasets in terms of scale, drawing diversity and fine-grained annotation, providing strong support for the advancement of AI models in the construction industry.
提供机构:
同济大学, 华东建筑集团股份有限公司, 上海人工智能实验室等
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
ArchCAD-400K的构建采用了创新的CAD数据标注引擎,通过系统归档的CAD图纸中的固有属性自动生成高质量标注,大幅降低了人工标注成本。该数据集包含来自5538张高度标准化图纸的413,062个数据块,规模超过现有最大CAD数据集的26倍。标注过程充分利用了建筑平面图的层次结构和块结构,实现了高效且可扩展的大规模标注。具体而言,通过语义聚合(如门和窗的层次)实现特定类别的批量标注,而块结构则通过实例重用机制实现重复实例的统一识别和标注。此外,为确保数据质量,数据源仅限于领先设计机构的完整图纸,并采用全矢量化的标注流程以避免图像到矢量转换带来的误差,最终由专家对自动标注结果进行审核和修正。
特点
ArchCAD-400K以其前所未有的规模和多样性脱颖而出。数据集覆盖了多种建筑类型,其中住宅建筑仅占14%,而大型公共和商业设施占据主导地位。图纸的平均面积达11,000平方米,远超同类数据集的1,000平方米,且有4.4%的图纸面积超过100,000平方米。此外,该数据集引入了全面的语义分类,涵盖27个类别,包括结构组件(如柱、梁)、非结构元素(如门、窗)和图纸标注(如轴线、标签),其中14个类别各自包含超过100万个图元。这种广泛的规模、多样性和精细标注使ArchCAD-400K成为推动建筑行业AI模型发展的强大资源。
使用方法
ArchCAD-400K的使用方法主要围绕其全景符号识别任务展开。数据集被划分为训练集、验证集和测试集,比例为7:1:2,确保每张图纸及其标注仅出现在一个分割中。研究人员可以利用该数据集训练和评估模型在全景符号识别任务上的性能,采用全景质量(PQ)、分割质量(SQ)和识别质量(RQ)等指标进行评估。此外,数据集还支持语义识别和实例识别任务的独立评估。为充分发挥数据集的潜力,建议结合提出的双通路符号识别器(DPSS)框架,该框架通过自适应融合模块增强图元特征与图像特征的互补性,从而在复杂图纸中实现精确的符号识别。
背景与挑战
背景概述
ArchCAD-400K是由同济大学、华东建筑设计研究院及上海人工智能实验室等机构联合构建的大规模建筑CAD图纸数据集,发布于2025年。该数据集旨在解决建筑CAD图纸中符号识别的核心问题,为全景符号检测任务提供高质量标注数据。通过创新的自动化标注引擎,该数据集包含来自5538张标准化图纸的413,062个标注块,规模超过现有最大CAD数据集的26倍,覆盖住宅、商业综合体、工业园等多样化建筑类型,平均图纸面积达11,000平方米。其细粒度的线级标注和27类语义分类(包括结构构件、非结构元素和图纸标记)显著推动了建筑设计自动化与建筑信息模型(BIM)领域的研究进展。
当前挑战
ArchCAD-400K面临的挑战主要体现在两方面:领域问题方面,建筑CAD图纸中符号的多样性和复杂性(如几何相似但语义不同的构件)对模型的泛化能力提出极高要求,而现有方法在跨建筑类型、空间尺度和布局复杂度上的表现仍不足;数据构建方面,传统人工标注需消耗上千工时,团队通过开发基于图层-块结构的自动化标注流水线,将标注效率提升10倍,但仍需解决非标准图纸的语义歧义问题,并通过专家复核确保标注质量。此外,数据规模的激增(达400K样本)对模型训练的计算效率和标注一致性管理提出了新的技术挑战。
常用场景
经典使用场景
在建筑信息模型(BIM)和计算机辅助设计(CAD)领域,ArchCAD-400K数据集为全景符号识别任务提供了前所未有的数据支持。其大规模、高多样性的标注数据使得研究者能够训练出更具泛化能力的模型,特别是在处理复杂建筑图纸中的符号识别问题时。该数据集通过自动标注引擎生成的高质量标注,显著降低了人工标注成本,为相关研究提供了可靠的数据基础。
实际应用
在实际应用中,ArchCAD-400K为建筑设计自动化、施工图纸审核和BIM模型生成等工程场景提供了关键技术支撑。例如,在大型商业综合体的设计过程中,该数据集训练的模型能够快速识别图纸中的结构构件和非结构元素,显著提升设计效率和准确性。同时,其在工业厂房、交通枢纽等复杂建筑类型中的表现,进一步验证了其在实际工程中的广泛应用潜力。
衍生相关工作
ArchCAD-400K的发布催生了一系列创新性研究工作,其中最典型的是Dual-Pathway Symbol Spotter(DPSS)框架。该框架通过双路径特征提取和自适应融合模块,在不依赖先验信息的情况下实现了最优性能。此外,基于该数据集的后续研究还探索了图神经网络、Transformer架构在CAD图纸理解中的应用,推动了建筑图纸分析领域的方法论创新。
以上内容由遇见数据集搜集并总结生成



