BenchCAD
收藏arXiv2026-05-12 更新2026-05-13 收录
下载链接:
https://benchcad.github.io/BenchCAD_webpage/
下载链接
链接失效反馈官方服务:
资源简介:
BenchCAD是由弗吉尼亚大学等机构联合创建的工业计算机辅助设计基准数据集,包含17,900个经过执行验证的CadQuery程序,覆盖106个工业零件族。该数据集源自ISO/DIN/EN/ASME/IEC等工业标准,通过专家手工建模和参数化采样流程生成,确保了工程约束和几何精度。其核心应用在于评估多模态大模型在CAD代码生成、视觉问答和程序编辑等任务中的工业就绪能力,旨在解决现有系统在三维结构理解、参数化抽象和可执行程序合成方面的不足,推动工业CAD自动化的发展。
BenchCAD is an industrial computer-aided design (CAD) benchmark dataset jointly developed by the University of Virginia and other institutions. It contains 17,900 execution-verified CadQuery programs and covers 106 industrial part families. Derived from industrial standards including ISO, DIN, EN, ASME, and IEC, the dataset is generated through expert manual modeling and parameterized sampling workflows, ensuring compliance with engineering constraints and geometric accuracy. Its core application is to evaluate the industrial readiness of multimodal large language models (LLMs) on tasks such as CAD code generation, visual question answering, and program editing. This dataset aims to address the limitations of existing systems in three-dimensional structure understanding, parameterized abstraction, and executable program synthesis, thereby advancing the development of industrial CAD automation.
提供机构:
弗吉尼亚大学; XXX大学
创建时间:
2026-05-12
原始信息汇总
数据集概述
BenchCAD 是一个面向工业程序化计算机辅助设计(CAD)的综合性、基于行业标准的基准测试集。它旨在评估模型在工业CAD推理方面的能力,覆盖从视觉识别到复杂代码生成的多个层次。
核心特性
- 大规模执行验证:包含 17,900 个经过沙盒执行验证的 CadQuery 零件程序。
- 工业标准锚定:49% 的零件族(52/106)锚定于真实的 47 项 ISO、DIN、EN、ASME、IEC 规范表格。
- 丰富操作覆盖:涵盖 46 种不同的 CadQuery 操作,包括
helix、twistExtrude、polarArray、loft和sweep等高级操作。 - 能力分解设计:通过四项匹配任务,分解评估模型的视觉识别、参数抽象和代码合成能力。
发布数据集
BenchCAD 包含三个子数据集:
| 数据集 | 规模 | 描述 |
|---|---|---|
| BenchCAD | 17,900 个零件 | 经过验证的 CadQuery 程序,包含代码、STEP 文件、4视图、参数和操作标签。 |
| BenchCAD-QA | 2,400 个问答对 | 配对的图像/代码数值问答项目。 |
| BenchCAD-Edit | 748 个编辑对 | 经过验证的编辑前/编辑后程序对。 |
所有零件源自 106 个手工精心制作的工业零件族。每个数据集发布均附带 Croissant 1.0 元数据,代码采用 MIT 许可证,数据采用 CC-BY-4.0 许可证。
任务定义
BenchCAD 设计了四项匹配任务,以系统评估 CAD 推理能力:
- Vision2Code(img2cq):根据多视角渲染图生成 CadQuery 程序。通过交并比(IoU)、倒角距离(Chamfer)、豪斯多夫距离(Hausdorff)、特征F1分数(Feature-F1)、基础操作召回率(essential-op recall)和执行率(exec rate)进行评估。
- Vision QA(qa_img):基于多视角渲染图的几何推理(数值问答)。问题按四级能力层级(从 L1 整体视觉识别到 L4 空间推理)分解。
- Code QA(qa_code):基于 CadQuery 源代码的符号理解(数值问答)。问题与 Vision QA 共享题库,通过对比答案差异,分离视觉识别失败与参数推理失败。
- Code Edit(edit_code):根据自然语言指令编辑程序。包含五种编辑类型(T1–T5),从简单替换到复杂几何重建。评分指标为“净空归一化改进”(headroom-normalised improvement)。
领导者板概况
数据集页面提供了部分前沿模型的性能指标,用以展示基准测试的有效性。
- Vision2Code:在该任务中,基于 BenchCAD 训练的 Qwen3-VL-2B(RL, IID)模型取得了最高综合分(total ↑)0.7682,显著优于通用前沿多模态大模型(如 Gemini 3.1 Pro thinking 的 0.3970)。
- Vision QA & Code QA:在所有模型上,Code QA 的性能(最高总分为 0.838)显著优于 Vision QA(最高总分为 0.587),揭示了约 25 个百分点的模态差距,表明模型从代码中提取几何和参数信息远比从图像中可靠。
- Code Edit:在程序编辑任务中,GPT-5.3 (thinking) 取得了最高准确率(Accuracy) 0.865。五种编辑类型的表现从简单(T1)到困难(T5)依次递减,其中多块几何重建(T5)仍是最大挑战。
搜集汇总
数据集介绍

构建方式
BenchCAD的构建基于四项核心设计原则:领域专家依据工业标准手工构建每一零件族的几何模型,严格求解标准强制规定的几何方程以生成参数化CAD程序;零件参数从真实的规范表中采样,确保尺寸源于真实工程范围;数据集按命名族进行组织,每个族由小型Python模块实现,包含类型化参数模式、采样器、验证器与确定性构造器;同时,BenchCAD涵盖了广泛的CadQuery操作面,包括螺旋扫掠、放样、扭转拉伸等先进操作。每个族支持三种难度层级,参数在标准约束下采样后生成CadQuery程序,并通过沙盒执行验证,仅通过编译、运行时间限制、非退化体积检查及领域专家视觉签核的记录才被纳入最终发布的17,900个程序中。
特点
BenchCAD的特点在于其工业导向与能力分解的评估框架。数据集包含106个工业零件族,覆盖斜齿轮、压缩弹簧、麻花钻等可复用工程设计,其中49%的族锚定于ISO、DIN、EN、ASME、IEC等工业标准。BenchCAD提供了四种评估任务:图像到代码生成、视觉问答、代码问答以及指令引导的代码编辑,从而实现对视觉感知、参数抽象与可执行程序合成能力的细粒度分析。此外,数据集还包含2,400个配对QA项与748个精心策划的编辑对,支持旋转不变性评估与多维度度量,能够揭示模型在局部细节识别、操作选择、参数化理解及编辑保真度等方面的系统性缺陷。
使用方法
BenchCAD的使用方法涵盖四个核心任务。在VISION2CODE任务中,模型需从四张正投影视图生成可执行的CadQuery代码,以体素交并比为主要评估指标。CODE EDIT任务要求模型根据自然语言编辑指令对原始程序进行最小修改,并使用归一化准确率衡量改进程度。VISION QA与CODE QA任务通过匹配的视觉与代码条件问题集,沿四级能力层次(整体视觉识别、CAD操作理解、工业参数抽象、空间/代码推理)评估模型表现。用户可通过Hugging Face平台获取数据集,利用提供的评估代码运行基准测试,并通过监督微调与强化学习进一步训练模型以提升其在工业CAD推理上的能力。
背景与挑战
背景概述
BenchCAD诞生于工业计算机辅助设计(CAD)领域对自动化与智能化日益迫切的需求,由弗吉尼亚大学张昊哲、刘楷辰、陈苗苗等研究者在2026年共同构建。核心研究问题聚焦于评估多模态大语言模型在工业级CAD推理与程序代码生成上的真实能力,而非仅仅停留在形状识别的表层。数据集涵盖106个工业零件家族,共计17,900个经执行验证的CadQuery参数化程序,深度锚定ISO/DIN/EN/ASME/IEC等国际标准。其问世填补了现有基准在可编辑、可执行、约束感知的CAD评价方面的空白,对推动CAD自动化迈向工业就绪水平具有里程碑式的影响力。
当前挑战
当前BenchCAD所应对的核心领域挑战在于,前沿模型虽能恢复零件的粗略外几何形状,却无法生成忠实反映工程意图的参数化CAD程序。具体表现为:精细三维结构缺失、工业设计参数误读,以及将必要的扫描、放样和扭转变形操作退化为简单的草图加拉伸。构建过程中遭遇的挑战同样严峻,需确保每个程序在沙箱中编译运行不超时、生成实体无退化体积,同时维护106个零件家族在ISO等标准下的参数约束关系。此外,还需要设计分级的能力分解式任务套件,以精准隔离视觉感知、参数抽象与代码合成等子能力的瓶颈。
常用场景
经典使用场景
BenchCAD作为工业计算机辅助设计(CAD)推理领域的统一基准测试,其最经典的使用场景在于评估多模态大语言模型(MLLMs)在程序化CAD任务中的综合能力。具体而言,研究人员通过BenchCAD提供的图像到代码生成、视觉问答、代码问答以及指令引导的代码编辑四项任务,系统性地考察模型在视觉感知、参数抽象和可执行程序合成三个核心环节的表现。该基准涵盖了106个工业零件族、17900个经执行验证的CadQuery程序,使得对模型在真实工业环境下进行细粒度能力剖析成为可能。
解决学术问题
BenchCAD成功解决了现有CAD代码生成基准中普遍存在的评价维度单一化问题。传统评估仅依赖交并比或Chamfer距离等单一几何匹配指标,难以区分模型在视觉感知、CAD操作理解和参数抽象等不同层面的失败。BenchCAD通过四层能力层次分析框架,将模型表现按整体视觉识别、CAD操作理解、工业参数抽象和空间代码推理逐层解耦,从而精确诊断模型缺陷的来源。这种诊断能力使研究者能够超越粗糙的几何相似度比较,洞察模型在工业设计参数解读、高级操作调用(如螺旋扫掠、放样)等方面的真实局限,推动CAD自动化研究的深入发展。
衍生相关工作
BenchCAD的发布催生了一系列重要的衍生工作。在训练资源利用方面,研究者基于BenchCAD对Qwen3-VL-2B进行监督微调和强化学习训练,显著提升了模型在操作覆盖率和可执行代码生成方面的表现,并通过面内与面外零件族的对比实验揭示了工业CAD泛化仍面临的挑战。在能力诊断层面,BenchCAD揭示的“整体空间与细节缺陷”、“工业常识鸿沟”和“CAD操作盲区”三大系统性问题,为后续针对性的模型改进指明了方向。此外,BenchCAD的编辑任务数据集和问答任务设计范式,为构建更复杂的多步编辑推理和跨模态设计理解系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



