qixiaoqi/cad_bench_200

Name: qixiaoqi/cad_bench_200
Creator: qixiaoqi
Published: 2026-05-01 22:23:32
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/qixiaoqi/cad_bench_200

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含200个训练样本，主要用于几何建模或计算机辅助设计（CAD）相关任务。特征包括几何体主干（stem）、原始多样主干（original_diverse_stem）、替代基准主干（substitute_bench_stem）、是否被替代（is_substituted）、家族（family）、难度（difficulty）、基础平面（base_plane）、特征数量（feature_count）、特征标签（feature_tags）、使用操作（ops_used）、ISO标签（iso_tags）、地面实况代码（gt_code）、复合图像（composite_png）、标准（standard）、多样家族（diverse_family）、多样难度（diverse_difficulty）、多样基础平面（diverse_base_plane）、执行成功状态（exec_ok）、执行原因（exec_reason）、执行时间（exec_dt_s）、问答（qa）和CAD查询代码（cadquery_code）。数据集可能用于模型训练、代码生成或质量评估，涉及几何体生成、替换和验证过程。

提供机构：

qixiaoqi

搜集汇总

数据集介绍

构建方式

CAD_Bench_200数据集的构建旨在评估大型语言模型在计算机辅助设计（CAD）领域生成参数化建模代码的能力。该数据集基于现有CAD基准进行了扩展与优化，通过系统性替换原始问题中的关键几何特征（如基准平面、操作序列等），构建出更具挑战性的多样化任务。每条数据包含原始问题描述、替换后的基准问题、对应的CADQuery代码、执行状态与耗时，以及丰富的元信息，如特征标签、难度等级和所属标准家族。此外，数据还额外引入了多样化的任务变体（diverse_family、diverse_difficulty等），以覆盖更广泛的建模场景，从而更全面地衡量模型的泛化性能。

使用方法

CAD_Bench_200可直接通过HuggingFace Datasets库加载使用，默认配置下将读取train分片中的所有数据。研究人员可将输入字段（如stem或substitute_bench_stem）作为语言模型的提示，要求模型生成对应的CADQuery代码，并与数据集中的gt_code进行比对以评估正确性。通过利用qa字段中预置的问答对，可进一步开展对话式或交互式CAD任务评估。对于关注代码执行鲁棒性的工作，可依据exec_ok和exec_reason字段过滤样本，并利用exec_dt_s字段分析模型生成代码的时间效率。此外，数据集中丰富的特征标签与难度分级，为分层次评估模型在不同复杂度任务上的表现提供了便利。

背景与挑战

背景概述

在计算机辅助设计（CAD）领域，基于程序化建模的几何体生成与理解是推动智能设计、三维视觉与自动化制造的关键技术。cad_bench_200数据集于近期由相关研究团队构建，旨在为CAD程序化建模提供标准化的基准测试平台。该数据集包含200个精心挑选的CAD模型样本，每个样本均提供了原始多样化指令、替代基准指令、执行状态、几何特征标签、CADQuery代码及渲染图像等丰富元数据。其核心研究问题聚焦于评估和提升模型在理解复杂CAD指令、生成准确程序化代码、以及处理几何特征多样性与执行可靠性方面的能力。该数据集的出现弥补了当前缺乏统一、高标注质量CAD建模基准的空白，对推动CAD领域的程序合成、自然语言到代码转换及智能设计辅助系统的研究具有重要影响力。

当前挑战

cad_bench_200数据集面临的核心挑战首先来自领域问题层面：CAD程序化建模要求模型不仅能够理解高度专业化的几何术语和操作序列（如特征创建、草图约束、布尔运算），还需精确输出可执行的CADQuery代码，这对自然语言理解与程序合成能力的结合提出了极高要求。其次，在数据集构建过程中，挑战同样显著：需确保200个样本覆盖多种CAD特征类别（如拉伸、旋转、倒角等）与难度等级，同时为每个样本生成语义等价的多样化指令以测试模型的泛化性。此外，代码执行可靠性（exec_ok字段）的验证与执行时间（exec_dt_s）的采集，要求构建流程中集成自动化的CAD环境执行引擎，处理语义正确但因几何参数细微差异导致的执行失败，增加了数据标注与质量控制的复杂度。

常用场景

经典使用场景

在计算机辅助设计（CAD）与人工智能的交叉领域，cad_bench_200数据集为评估大语言模型生成参数化CAD建模代码的能力提供了标准基准。该数据集包含200个精心设计的CAD模型，每个样本均配备自然语言描述、多视角草图以及对应的CadQuery代码。研究者利用此数据集训练模型从文本或图像直接生成可执行的建模脚本，验证模型在理解几何拓扑关系、操作序列编排以及参数化约束推理方面的表现。这一基准填补了三维建模自动化评估中缺乏标准化小样本测试集的空白，成为衡量模型结构理解与代码生成协同能力的重要工具。

解决学术问题

cad_bench_200数据集解决了CAD领域研究中模型泛化能力评估的长期困扰。传统方法依赖手工设计规则或有限样本，难以公平比较不同算法。该数据集通过系统化构建覆盖基本体素、特征操作和装配逻辑的标准化题库，使研究者能够量化模型在零样本或迁移场景下的表现。其字段设计揭示了模型对拉伸、旋转、布尔运算等操作的理解深度，以及应对平面选择、特征依赖等专业约束时的推理能力。这推动了可控三维内容生成从定性演示迈向定量分析，并为后续研究奠定了可复现的评估范式。

实际应用

在实际应用中，cad_bench_200数据集驱动的技术可用于工业产品快速原型设计，辅助工程师通过自然语言描述生成初步三维模型，加速从概念到设计稿的迭代。在教育领域，该数据集支持智能CAD教学系统，能够自动生成练习题并评估学生建模代码的正确性。创业公司则利用微调后的模型实现家具定制、玩具设计等轻量化场景，降低三维建模软件的使用门槛。此外，该数据集还能检测大模型在几何逻辑上的潜在缺陷，为安全关键的工业场景提供模型合规性预检工具。

数据集最近研究