ArchCAD-400K|建筑信息模型数据集|计算机辅助设计数据集

arXiv2025-03-28 更新2025-04-03 收录

建筑信息模型

计算机辅助设计

下载链接：

http://arxiv.org/abs/2503.22346v1

下载链接

链接失效反馈

资源简介：

ArchCAD-400K是一个大规模的建筑CAD绘图数据集，由同济大学等机构创建。该数据集包含5538份高度标准化的绘图，共计413062个图元块，是现有最大CAD数据集的26倍以上。数据集在绘图多样性和分类范畴上都有所扩展，提供了细致的线粒度注释。数据集的构建采用了自动化注释引擎，大大降低了人工标注的成本。ArchCAD-400K旨在推动建筑行业中AI模型的发展，特别是在建筑设计和施工方面。

提供机构：

同济大学, 华东建筑集团股份有限公司, 上海人工智能实验室等

创建时间：

2025-03-28

AI搜集汇总

数据集介绍

构建方式

ArchCAD-400K数据集的构建采用了创新的CAD数据标注引擎，通过系统归档的CAD图纸中的固有属性自动生成高质量标注，大幅降低了人工标注成本。该数据集包含来自5538张高度标准化图纸的413,062个片段，规模超过现有最大CAD数据集的26倍。构建过程中，数据源限定为领先设计机构完成的图纸，并采用全矢量化标注流程以确保数据质量，专家团队对自动标注结果进行了审核与修正。

特点

ArchCAD-400K以其卓越的规模与多样性著称，覆盖了住宅建筑（仅占14%）与大型公共及商业设施等多种建筑类型。图纸平均面积达11,000平方米，远超同类数据集，其中4.4%的图纸面积超过100,000平方米。数据集提供细粒度的线级标注，包含27个语义类别，涵盖结构构件、非结构元素及图纸标注等，其中14个类别各含超过100万个图元，为建筑行业的AI模型研发提供了丰富资源。

使用方法

该数据集支持全景符号识别任务的研究与应用，用户可通过解析SVG格式的文件结构获取每个图元的语义标签、实例标识及可视化颜色信息。配套提出的双路径符号识别框架DPSS，采用自适应融合模块增强图元特征与图像特征的互补性，在FloorPlanCAD和ArchCAD-400K上分别实现了3%和10%的性能提升。数据集按7:1:2比例划分为训练、验证和测试集，确保模型评估的严谨性。

背景与挑战

背景概述

ArchCAD-400K是由同济大学、华东建筑设计研究院、上海人工智能实验室等机构联合构建的大规模建筑CAD图纸数据集，发布于2025年。该数据集针对建筑CAD图纸中的全景符号识别任务，包含来自5,538张标准化图纸的413,062个标注块，规模超过现有最大数据集的26倍。其创新性地开发了基于图层-块结构的自动化标注引擎，将标注效率提升10倍以上，同时覆盖住宅、商业综合体、工业园等多样化建筑类型，平均图纸面积达11,000平方米，并扩展至27类结构/非结构元素，为建筑设计自动化与BIM应用提供了重要基础设施。

当前挑战

在领域问题层面，ArchCAD-400K需解决建筑符号的跨尺度识别难题：1) 同类符号在不同图纸中存在几何变形（如六种门符号变体）；2) 异类符号的形态相似性（矩形可能代表柱/孔洞/家具）；3) 密集线条干扰下的实例分离（如重叠的管线与梁）。在构建过程中面临：1) 非标准图纸的图层命名歧义需设计正则匹配算法；2) 混合图元的语义歧义需人工校正；3) 超大图纸（超10万平方米）的矢量标注存储与处理优化问题。

常用场景

经典使用场景

ArchCAD-400K数据集在建筑CAD图纸的全景符号识别任务中展现了卓越的应用价值。该数据集通过高效的自动化标注引擎，生成了超过413,000个标注块，覆盖了多种建筑类型和空间尺度。其标注粒度精细至线条级别，为深度学习模型提供了丰富的训练样本，显著提升了符号识别的准确性和鲁棒性。

解决学术问题

ArchCAD-400K解决了建筑CAD图纸符号识别中的多个关键学术问题。首先，它通过自动化标注大幅降低了人工标注成本，解决了传统方法中标注效率低下的瓶颈。其次，数据集的大规模和多样性为模型泛化能力提供了坚实基础，克服了以往数据集在建筑类型和空间尺度上的局限性。此外，其精细的语义分类（如结构组件、非结构元素和图纸标注）为复杂场景下的符号识别研究提供了新的可能性。

衍生相关工作

ArchCAD-400K的发布催生了一系列创新性研究。其中，双通路符号识别器（DPSS）通过自适应融合模块整合了原始特征和图像特征，在符号识别任务中实现了最先进的性能。此外，该数据集还激发了基于图注意力网络（GAT）和点集表示的新方法探索，推动了建筑CAD分析领域的算法进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Psych-101

Psych-101数据集是一个自然语言转录的心理学实验数据集，包含了160个心理学实验的逐次数据，涉及60,092名参与者，共记录了10,681,650次选择。数据集中的选择信息被封装在“<<”和“>>”标记中。数据集的主要用途是研究人类认知的基础模型。数据集提供了详细的实验文本、实验标识符和参与者标识符。数据集的语言为英语，使用Apache 2.0许可证。

huggingface 收录

HQ-GCM-RA-C1

HQ-GCM-RA-C1是由中医药广东实验室和南方科技大学联合创建的中医类风湿性关节炎（RA）数据集。该数据集涵盖了古代中医文献、现代临床研究、硕士和博士论文等多种来源，共计270,000条数据。数据集的内容包括问题-答案对、病理解释等，旨在为中医类风湿性关节炎的诊断和治疗提供全面的数据支持。数据集的创建过程包括从原始文献中提取信息、生成对话集、并通过滑动窗口方法增强上下文逻辑。该数据集的应用领域主要集中在中医类风湿性关节炎的诊断和治疗，旨在解决现有大语言模型在中医领域的数据稀缺问题，提升模型在中医诊断和治疗中的准确性和文化适应性。

arXiv 收录

M3FD

我们用校准良好的红外和光学传感器构建了一个同步成像系统，并收集了一个多场景多模态数据集 (M3FD)，其中包括4个，177个对准的红外和可见光图像对以及23个，635个带注释的对象。该数据集涵盖了具有各种环境，照明，季节和天气的四个主要场景，具有广泛的像素变化范围。

OpenDataLab 收录

HRRSD

HRRSD包含21,761张从Google Earth和Baidu Map获取的高分辨率（0.15-m至1.2-m）图像，涵盖55,740个对象实例和13个类别的遥感图像对象。数据集被分为训练、验证和测试三个子集，分别包含5401、5417和10943张图像。此外，还提供了数据集的统计信息和基准测试结果。

github 收录

Huatuo-26M

Huatuo-26M是由香港中文大学（深圳）创建的大型中文医疗问答数据集，包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成，旨在纪念古代名医华佗。数据集内容涵盖广泛，包括常见疾病、慢性病及复杂疾病等，问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究，还旨在辅助患者和临床医生，通过提供丰富的医疗知识，支持模型在零样本学习和其他医疗问答数据集上的表现，以及作为预训练语料库提升现有预训练语言模型的性能。

arXiv 收录