neuralCAD-Edit
收藏arXiv2026-04-17 更新2026-04-21 收录
下载链接:
https://autodeskailab.github.io/neuralCAD-Edit
下载链接
链接失效反馈官方服务:
资源简介:
neuralCAD-Edit是由欧特克研究院发布的专业3D CAD模型编辑基准数据集,首次通过捕捉专业设计师在CAD软件中的多模态交互(视频、语音、绘图)来构建真实编辑指令。数据集包含平衡的参数化/构造组合模型,每个模型对应易/中/难三级编辑请求,并记录设计师的屏幕操作、语音转录及时间戳等元数据。通过严格的人工验证流程,49%的语音转录经过专家校正,确保数据质量。该数据集旨在推动AI理解复杂时空指令并执行精确几何编辑的能力,为CAD设计工作流的智能辅助提供评估标准。
neuralCAD-Edit is a professional 3D CAD model editing benchmark dataset released by Autodesk Research. It is the first such benchmark to construct realistic editing instructions by capturing multimodal interactions (video, speech, and drawing) from professional designers while using CAD software. The dataset includes balanced parametric/constructive hybrid models, each paired with three tiers of editing requests (easy, medium, hard), and records metadata such as the designers' screen operations, speech transcripts, and timestamps. Through a rigorous manual verification workflow, 49% of the speech transcripts have been expert-corrected to guarantee data quality. This dataset is designed to advance AI's ability to comprehend complex spatiotemporal instructions and perform precise geometric editing, providing an evaluation benchmark for intelligent assistance in CAD design workflows.
提供机构:
欧特克研究院
创建时间:
2026-04-17
原始信息汇总
neuralCAD-Edit 数据集概述
数据集基本信息
- 数据集名称:neuralCAD-Edit
- 发布机构:Autodesk Research
- 类型:基准测试(Benchmark)
- 核心内容:用于评估AI遵循用户编辑请求能力的3D CAD编辑基准
数据集构成
- 编辑请求数量:192个多模态编辑请求(包含视频、文本和绘图)
- 编辑操作数量:384个编辑
- 数据来源:由十位专家CAD设计师专门为此基准测试创建并同意提供
- 输入CAD模型来源:Fusion Gallery Dataset
- 模型类型:涵盖单体和装配体模型,包含带参数设计历史和不带参数设计历史的模型
多模态编辑请求特点
- 通信方式:捕捉CAD工程师自然的交互方式,包括与模型交互、指向特定面和边、手绘标记以及口头描述变更
- 请求模态组合:交互式+静态绘图、交互式+临时绘图、纯交互式、纯文本
- 编辑难度等级:简单、中等、困难(预期完成时间分别为2、5、10分钟)
- 数据记录:记录了编辑过程的截图和命令
- 关键发现:请求中包含绘图允许请求者传达更大的变更,并产生更高质量的编辑
基准测试与评估
- 人类基准:每个请求由原始请求者和另一名CAD专家分别执行,提供用于计算自动指标的真实模型和CAD编辑性能的人类基线
- 测试模型:在完整编辑请求集上运行了GPT 5.2、Gemini 3 Pro和Claude Sonnet 4.5,允许模型检查和优化其输出最多10次
- 评估方法:
- 基于特征的指标
- 3D体积指标
- VLM(视觉语言模型)评估
- 人类评估
- 评估结果:人类评估揭示了即使是最好的AI模型(GPT 5.2)与人类基线之间的显著差距。VLM评估和自动指标提供了模型性能的大致感知,但与CAD专家的评分没有强相关性。
性能指标(摘要)
| 模型 | Chamfer-dist ↓ | Voxel-IoU ↑ | DINO-sim ↑ | Validity ↑ | Instruction ↑ | Quality ↑ | Acceptance ↑ |
|---|---|---|---|---|---|---|---|
| GT Human requestor | — | — | — | — | 0.74 | 0.66 | 0.82 |
| Human baseline | 22 | 0.76 | 0.93 | 1.00 | 0.74 | 0.66 | 0.78 |
| GPT 5.2 | 50 | 0.57 | 0.66 | 0.99 | 0.48 | 0.39 | 0.25 |
| Gemini-3-Pro | 110 | 0.30 | 0.36 | 0.58 | 0.27 | 0.16 | 0.10 |
| Claude Sonnet 4.5 | 54 | 0.18 | 0.25 | 0.42 | 0.22 | 0.10 | 0.05 |
可用资源
- 论文:https://autodeskailab.github.io/neuralCAD-Edit(描述基准测试、数据集收集和评估方法的完整研究论文)
- 代码仓库:https://autodeskailab.github.io/neuralCAD-Edit(用于访问和查看数据、模型工具以及运行基准测试的脚本的代码)
- 数据集:https://autodeskailab.github.io/neuralCAD-Edit(可下载完整的基准测试数据集,包括请求、编辑和模型)
引用格式
@inproceedings{perrett2026neuralcadedit, title={neuralCAD-Edit: An Expert Benchmark for Multimodal-Instructed 3D CAD Model Editing}, author={Perrett, Toby and Bourchard, Matthew and McCarthy, William}, booktitle={arXiv preprint arXiv:2604.16170}, year={2026} }
搜集汇总
数据集介绍

构建方式
在三维计算机辅助设计领域,专业设计师通常通过多模态交互传达编辑意图,而传统数据集多依赖文本指令,难以捕捉真实工作流程中的复杂性。neuralCAD-Edit的构建过程旨在弥合这一差距,通过招募十位经验丰富的CAD工程师,在Autodesk Fusion软件环境中自然地进行模型编辑请求。数据采集采用定制插件,同步记录屏幕视频、语音、鼠标交互及绘制操作,形成四种模态组合:纯文本、交互式视频、临时绘制和静态绘制。每个初始CAD模型均涵盖参数化与静态、单一体与装配体两种维度,并平衡了不同难度层级的请求,最终经过专家人工校验与转录校正,确保了数据的高质量与可靠性。
特点
该数据集的核心特点在于其多模态指令的真实性与复杂性,突破了以往仅以文本为条件的局限。它首次整合了视频、语音、交互与绘制等多种信息流,模拟了设计师在实际协作中通过手势、绘图和实时操作传达空间概念的自然方式。数据集中包含192个请求和384次编辑,覆盖了从简单到困难的不同任务层级,并提供了请求者与另一位专家的双重编辑结果,以建立人类基准。这种设计不仅揭示了多模态指令在信息密度与编辑复杂度上的优势,也为评估AI模型在三维几何理解与操作能力上设立了严谨的标准。
使用方法
neuralCAD-Edit主要作为评估基准,用于衡量AI模型在理解多模态指令并执行三维CAD编辑任务上的性能。使用者需加载输入的B-Rep格式CAD模型,结合请求视频、语音转录及时间戳事件,生成编辑后的CAD模型。评估过程支持多种方法,包括自动指标(如Chamfer距离、体素IoU)、视觉语言模型评分以及人类专家评级,其中人类接受度被视为关键指标。数据集鼓励研究者开发能够处理时空交错多模态输入、并精准操控几何结构的通用模型,为推进三维CAD编辑技术的发展提供了坚实的实验基础。
背景与挑战
背景概述
随着三维计算机辅助设计(CAD)生成技术的迅速发展,编辑已成为设计流程中的关键环节,涉及模型精修、误差修复及规格更新等任务。由Autodesk Research团队于2026年提出的neuralCAD-Edit数据集,首次构建了基于专家CAD工程师多模态指令的三维CAD模型编辑基准。该数据集通过捕捉专业设计师在CAD软件中操作模型时的视频、语音、绘图及交互行为,模拟真实协作场景,旨在推动前沿模型在三维时空理解与几何操纵能力上的发展。其核心研究问题聚焦于如何使人工智能系统理解并执行复杂、时序交织的多模态编辑指令,从而超越传统文本界面的限制,为CAD设计工作流带来更直观、高效的交互范式。
当前挑战
neuralCAD-Edit所针对的领域挑战在于三维CAD编辑任务对多模态理解与精确几何操纵的双重要求。模型需解析视频、语音、绘图等交织指令,准确捕捉设计意图,并生成符合专业标准的三维边界表示(B-Rep)编辑结果。当前领先的基础模型(如GPT 5.2)在人类评估中接受度仍显著低于专家水平,暴露出现有技术在组合空间推理、相对定位及语义一致性等方面的不足。数据构建过程中的挑战包括真实多模态指令的采集与对齐,需协调十位经验丰富的设计师在受控环境中生成高质量请求与编辑对,并处理语音转录校正、时序标注及模型有效性验证等复杂工序,以确保基准的严谨性与代表性。
常用场景
经典使用场景
在三维计算机辅助设计领域,传统模型编辑往往依赖文本指令,限制了设计意图的精确传达。neuralCAD-Edit通过引入多模态指令基准,革新了这一范式。该数据集最经典的使用场景在于评估前沿模型在理解复杂多模态指令后进行三维CAD模型编辑的能力。专家设计师通过视频、语音、绘图与模型交互的方式提出编辑请求,模拟真实协作环境,为AI系统提供了理解时空交织指令并执行几何操作的测试平台。
实际应用
在实际工业设计流程中,CAD模型的反复修改是耗时且专业化的环节。neuralCAD-Edit数据集的实际应用场景体现在提升设计协作效率与智能化辅助工具开发。通过模拟设计师自然交互方式,该基准可用于训练AI系统理解手势、绘图与语音结合的编辑指令,进而集成到专业CAD软件中,实现更直观、沉浸式的设计界面。这有望缩短设计迭代周期,降低沟通成本,并为智能制造领域的自动化模型优化提供技术基础。
衍生相关工作
neuralCAD-Edit的发布催生了多模态CAD编辑与生成领域的系列经典工作。基于其基准,研究者开始探索结合大型语言模型的工具使用框架,如CAD-Assistant提出的工具增强视觉语言模型。同时,该数据集激励了针对B-Rep表示的语义编辑方法发展,例如B-RepLatent Editor利用大语言模型进行潜在空间操作。此外,通用自回归模型在CAD脚本编写与执行方面的能力评估也受此推动,为跨模态编辑系统的演进提供了实证基础。
以上内容由遇见数据集搜集并总结生成



