ArchCAD-400K
收藏arXiv2025-03-28 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.22346v1
下载链接
链接失效反馈官方服务:
资源简介:
ArchCAD-400K是一个大规模的建筑CAD绘图数据集,由同济大学等机构创建。该数据集包含5538份高度标准化的绘图,共计413062个图元块,是现有最大CAD数据集的26倍以上。数据集在绘图多样性和分类范畴上都有所扩展,提供了细致的线粒度注释。数据集的构建采用了自动化注释引擎,大大降低了人工标注的成本。ArchCAD-400K旨在推动建筑行业中AI模型的发展,特别是在建筑设计和施工方面。
ArchCAD-400K is a large-scale architectural CAD drawing dataset created by institutions including Tongji University. This dataset contains 5,538 highly standardized drawings, with a total of 413,062 drawing primitive blocks, which is more than 26 times the size of the largest existing CAD dataset. The dataset expands both drawing diversity and classification categories, and provides fine-grained line-level annotations. The dataset was constructed using an automated annotation engine, which greatly reduced the cost of manual annotation. ArchCAD-400K aims to promote the development of AI models in the construction industry, particularly in the fields of architectural design and construction.
提供机构:
同济大学, 华东建筑集团股份有限公司, 上海人工智能实验室等
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
ArchCAD-400K数据集的构建采用了创新的CAD数据标注引擎,通过系统归档的CAD图纸中的固有属性自动生成高质量标注,大幅降低了人工标注成本。该数据集包含来自5538张高度标准化图纸的413,062个片段,规模超过现有最大CAD数据集的26倍。构建过程中,数据源限定为领先设计机构完成的图纸,并采用全矢量化标注流程以确保数据质量,专家团队对自动标注结果进行了审核与修正。
特点
ArchCAD-400K以其卓越的规模与多样性著称,覆盖了住宅建筑(仅占14%)与大型公共及商业设施等多种建筑类型。图纸平均面积达11,000平方米,远超同类数据集,其中4.4%的图纸面积超过100,000平方米。数据集提供细粒度的线级标注,包含27个语义类别,涵盖结构构件、非结构元素及图纸标注等,其中14个类别各含超过100万个图元,为建筑行业的AI模型研发提供了丰富资源。
使用方法
该数据集支持全景符号识别任务的研究与应用,用户可通过解析SVG格式的文件结构获取每个图元的语义标签、实例标识及可视化颜色信息。配套提出的双路径符号识别框架DPSS,采用自适应融合模块增强图元特征与图像特征的互补性,在FloorPlanCAD和ArchCAD-400K上分别实现了3%和10%的性能提升。数据集按7:1:2比例划分为训练、验证和测试集,确保模型评估的严谨性。
背景与挑战
背景概述
ArchCAD-400K是由同济大学、华东建筑设计研究院、上海人工智能实验室等机构联合构建的大规模建筑CAD图纸数据集,发布于2025年。该数据集针对建筑CAD图纸中的全景符号识别任务,包含来自5,538张标准化图纸的413,062个标注块,规模超过现有最大数据集的26倍。其创新性地开发了基于图层-块结构的自动化标注引擎,将标注效率提升10倍以上,同时覆盖住宅、商业综合体、工业园等多样化建筑类型,平均图纸面积达11,000平方米,并扩展至27类结构/非结构元素,为建筑设计自动化与BIM应用提供了重要基础设施。
当前挑战
在领域问题层面,ArchCAD-400K需解决建筑符号的跨尺度识别难题:1) 同类符号在不同图纸中存在几何变形(如六种门符号变体);2) 异类符号的形态相似性(矩形可能代表柱/孔洞/家具);3) 密集线条干扰下的实例分离(如重叠的管线与梁)。在构建过程中面临:1) 非标准图纸的图层命名歧义需设计正则匹配算法;2) 混合图元的语义歧义需人工校正;3) 超大图纸(超10万平方米)的矢量标注存储与处理优化问题。
常用场景
经典使用场景
ArchCAD-400K数据集在建筑CAD图纸的全景符号识别任务中展现了卓越的应用价值。该数据集通过高效的自动化标注引擎,生成了超过413,000个标注块,覆盖了多种建筑类型和空间尺度。其标注粒度精细至线条级别,为深度学习模型提供了丰富的训练样本,显著提升了符号识别的准确性和鲁棒性。
解决学术问题
ArchCAD-400K解决了建筑CAD图纸符号识别中的多个关键学术问题。首先,它通过自动化标注大幅降低了人工标注成本,解决了传统方法中标注效率低下的瓶颈。其次,数据集的大规模和多样性为模型泛化能力提供了坚实基础,克服了以往数据集在建筑类型和空间尺度上的局限性。此外,其精细的语义分类(如结构组件、非结构元素和图纸标注)为复杂场景下的符号识别研究提供了新的可能性。
衍生相关工作
ArchCAD-400K的发布催生了一系列创新性研究。其中,双通路符号识别器(DPSS)通过自适应融合模块整合了原始特征和图像特征,在符号识别任务中实现了最先进的性能。此外,该数据集还激发了基于图注意力网络(GAT)和点集表示的新方法探索,推动了建筑CAD分析领域的算法进步。
以上内容由遇见数据集搜集并总结生成



