ArchCAD-400K
收藏github2025-10-17 更新2025-11-06 收录
下载链接:
https://github.com/ArchiAI-LAB/ArchCAD
下载链接
链接失效反馈官方服务:
资源简介:
ArchCAD-400K是第一个大规模建筑CAD数据集,包含40万+符号,用于全景符号识别任务。该数据集首次公开发布了4万个高质量样本的精选子集,代表完整集合中更精细的部分,旨在促进初步研究
ArchCAD-400K is the first large-scale architectural CAD dataset containing over 400,000 symbols for panoramic symbol recognition tasks. This dataset releases the first publicly available curated subset of 40,000 high-quality samples, which represent the finer-grained portions of the full collection, aiming to facilitate preliminary research.
创建时间:
2025-10-15
原始信息汇总
ArchCAD-400k 数据集概述
数据集基本信息
- 数据集名称: ArchCAD-400k
- 数据集类型: 建筑CAD图纸数据集
- 数据规模: 40万+符号标注
- 主要用途: 全景符号检测研究
核心特点
- 首个大规模建筑CAD数据集
- 包含40万+符号标注
- 支持全景符号检测任务
- 提供高质量样本子集
数据获取
- 下载地址: https://huggingface.co/datasets/jackluoluo/ArchCAD
- 当前版本: 首轮开源版本
- 发布规模: 4万高质量样本精选子集
相关资源
- 基准模型: 双通路符号检测器(DPSS)
- 论文信息: 已被NeurIPS 2025接收
- 代码仓库: https://github.com/ArchiAI-LAB/ArchCAD
- 项目主页: https://archiai-lab.github.io/ArchCAD.github.io/
许可证
- 许可证类型: ACADEMIC许可证
引用格式
bibtex @article{luo2025archcad, title={ArchCAD-400K: An Open Large-Scale Architectural CAD Dataset and New Baseline for Panoptic Symbol Spotting}, author={Luo, R and Liu, Z and Cheng, T and others}, journal={arXiv preprint arXiv:2503.22346}, year={2025} }
搜集汇总
数据集介绍

构建方式
在建筑信息模型领域,ArchCAD-400K数据集通过系统化采集真实建筑CAD图纸构建而成。该数据集从专业设计图纸中提取了超过40万个符号实例,采用分层标注策略对各类建筑元素进行几何与语义双重标注。原始数据经过格式统一与质量筛选后,通过专用解析工具将矢量图形转换为结构化JSON格式,确保数据的一致性与可处理性。
使用方法
研究者可通过HuggingFace平台获取数据集预处理版本,配套提供的安装脚本可快速配置依赖环境。使用过程中需先运行数据解析脚本将原始SVG格式转换为模型可读的JSON结构,随后调用训练脚本启动双通路符号检测模型。该框架支持分布式训练与评估,用户可根据需要调整超参数以适配不同应用场景。
背景与挑战
背景概述
在建筑信息模型与计算机辅助设计领域,符号识别技术长期面临数据规模不足的瓶颈。ArchCAD-400K数据集由ArchiAI实验室于2025年构建,作为首个包含40万以上标注符号的大规模建筑CAD图纸数据集,其核心研究目标在于推动全景符号检测技术的发展。该数据集通过NeurIPS 2025会议发布,不仅填补了建筑图纸结构化解析的数据空白,更通过提出的双通路符号检测模型为智能审图、自动化建模等应用提供了关键基础设施。
当前挑战
建筑CAD图纸的全景符号检测需应对符号尺度差异显著与拓扑结构复杂的双重挑战,传统方法难以在保持检测精度的同时实现实例与语义的协同解析。数据集构建过程中,工程师需克服矢量图形数据标准化处理的难题,包括多图层元素对齐、异构符号体系归一化等关键环节,这些技术瓶颈的突破为后续研究奠定了重要基础。
常用场景
经典使用场景
在建筑信息模型与计算机视觉交叉领域,ArchCAD-400K数据集为全景符号检测任务提供了标准化测试平台。其核心应用场景聚焦于对建筑CAD图纸中各类符号的精细化识别与定位,通过双通路符号检测模型(DPSS)实现实例分割与语义分类的协同处理。该数据集通过40万级符号标注构建了多层次特征学习框架,显著提升了复杂建筑元素在矢量图形中的解析精度。
解决学术问题
该数据集有效解决了建筑图纸数字化解析中的三大核心难题:针对符号尺度差异巨大的多尺度检测问题,通过全景分割框架实现像素级定位;面对建筑符号类间相似性高的挑战,构建了细粒度分类体系;针对标注数据稀缺的现状,提供了大规模高质量标注样本。这些突破性进展为建筑图纸理解、自动合规检查等研究方向提供了可靠的数据支撑。
实际应用
在实际工程领域,该数据集驱动的技术已广泛应用于智能审图系统,能够自动检测建筑图纸中的门窗、设备等符号元素,大幅提升设计审查效率。在历史建筑数字化保护中,支持对传统图纸的自动解析与信息提取。此外,该技术还可集成至BIM软件生态,为建筑生命周期管理提供智能化的数据转换通道。
数据集最近研究
最新研究方向
在建筑CAD智能化分析领域,ArchCAD-400K数据集的发布标志着大规模图纸解析研究进入新阶段。该数据集聚焦全景符号识别这一前沿方向,通过融合实例分割与语义分割的双通路架构DPSS模型,有效解决了传统方法在复杂建筑元素识别中的粒度缺失问题。其40万级符号标注体系为建筑信息模型自动化生成、智能审图等工业应用提供了关键数据支撑,相关成果被NeurIPS 2025收录后,正推动CAD理解技术向细粒度、多模态方向发展,为智慧建造领域的算法创新奠定重要基础。
以上内容由遇见数据集搜集并总结生成



