CAD-bench/cad-bench-ed-2026-anonymous-full
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/CAD-bench/cad-bench-ed-2026-anonymous-full
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含完整的匿名CAD-bench评审工件,包括公共任务负载、报告结果JSON、源代码存档和用于论文表格的运行证明报告工件。每个任务目录包含多个文件,如prompt.txt(自然语言基准提示)、task.toml(任务元数据、难度、评估者名称和期望值)、gold.py(用于验证和媒体生成的参考Build123D解决方案)以及可选的夹具(如STEP文件或Blender模拟脚本)。数据集旨在与CAD-bench运行时一起使用,以评估CAD代码生成或代理CAD系统。数据来源为合成的CAD提示和基准元数据,不包含个人数据或人类受试记录。许可方面,创作的基准代码、提示、任务元数据和参考程序在MIT许可下发布。数据集包含17个任务,其中一些简单的几何任务接近当前模型的解决范围,而功能组装任务仍然困难。
This dataset contains the full anonymous CAD-bench reviewer artifact. It includes the public task payloads, reported result JSON, source archive, and provenance report artifacts for the runs used by the paper tables. Each task directory includes files such as prompt.txt (the natural-language benchmark prompt), task.toml (task metadata, difficulty, evaluator name, and expected values), gold.py (a reference Build123D solution used for validation and media generation), and optional fixtures like STEP files or Blender simulation scripts. The dataset is intended for use with the CAD-bench runtime to evaluate CAD code-generation or agentic CAD systems. The data provenance consists of synthetic CAD prompts and benchmark metadata authored for this benchmark, with no personal data or human-subject records. Licensing-wise, authored benchmark code, prompts, task metadata, and reference programs are released under MIT. The dataset has 17 tasks, with some simple geometry tasks close to being solved by current models, while functional assembly tasks remain difficult.
提供机构:
CAD-bench
搜集汇总
数据集介绍

构建方式
CAD-bench全量审阅数据集以匿名形式呈现,专为评估语言模型驱动的计算机辅助设计(CAD)系统而设计。该数据集囊括了论文表格所依赖的所有运行结果,其构建过程严谨而系统:每个子任务目录中均包含自然语言提示文本(prompt.txt)、任务元数据及预期值(task.toml)、用于验证的参考Build123D解决方案(gold.py),以及如STEP文件和Blender仿真脚本等辅助资源。结果部分(results/cad-bench-reported-results.json)整合了来自CAD-bench网站的全部17项任务数据行,明确区分为19个独立模型行与32个智能体行。溯源目录(provenance/)和代码目录(code/)分别保存了已获批运行的清单与匿名化的基准运行时及评分代码。
特点
本数据集的核心特点在于其高度结构化的组织方式与全面的评估能力。17项合成CAD任务覆盖从简单几何到复杂功能装配的广泛难度梯度,为当前CAD代码生成模型提供了精细的挑战基准。数据集中每项任务均包含丰富的元数据与验证参考,确保评估过程的客观性与可复现性。此外,数据集明确区分了独立模型与智能体系统的运行结果,便于对不同架构的CAD推理系统进行差异化分析。值得强调的是,这些评估分数仅作为诊断性基准信号,而非对生成机械部件制造安全性的认证。
使用方法
该数据集需结合CAD-bench运行时环境使用,以评估CAD代码生成或智能体系统的性能。用户可通过运行配套的任务数据集(HF_TASKS_REPO_ID=CAD-bench/cad-bench-ed-2026-anonymous-tasks)获得仅含任务内容的加载体验。数据集内的17项任务中,部分简单几何任务已被当前模型基本解决,而功能装配类任务仍构成显著挑战。当前参考实现采用Build123D接口,但基准设计的初衷是对提交的CAD制品进行评分,而非限定于特定建模API。用户在使用时需注意,M3内六角螺丝夹具部件来自McMaster-Carr的CAD下载,其使用需遵循相应平台的条款与条件。
背景与挑战
背景概述
计算机辅助设计(CAD)作为工程与制造领域的核心工具,近年来随着大语言模型(LLM)和智能体的兴起,正迎来自动化代码生成与智能建模的变革浪潮。然而,现有基准测试多聚焦于自然语言处理或视觉任务,缺乏针对CAD智能体在复杂机械设计场景下系统性评估的标准化平台。在此背景下,CAD-bench基准数据集于2026年由匿名研究团队构建,旨在填补这一空白,核心研究问题为评估语言模型驱动的CAD智能体在生成机械零件、装配体及功能性组件方面的代码能力。该数据集包含17个精心设计的合成任务,涵盖了从简单几何体到复杂功能装配的多层次难度,并提供了完整的提示文本、任务元数据、参考程序及评分代码,其发布将对自动化CAD领域的研究产生深远影响,推动模型从代码生成向实际工程应用的跨越。
当前挑战
CAD-bench数据集所解决的领域问题核心在于提升语言模型在机械设计任务中的可执行性与可靠性,具体挑战包括:现有模型在处理功能性装配任务时表现欠佳,尤其是涉及标准紧固件(如M3内六角螺钉)的STEP文件集成与物理约束模拟,且简单几何任务虽已接近解决,但复杂任务仍依赖领域特定的建模API(当前为Build123D),限制了基准的泛化能力。在构建过程中,数据集面临的主要挑战在于任务设计的真实性——17个任务需覆盖从基础到高级的难度梯度,同时确保参考实现的可验证性与评分公平性,这要求开发团队平衡任务复杂度与标注一致性,并协调第三方资源(如McMaster-Carr的CAD下载)的许可合规性,此外还需构建完整的注释链条与匿名化评估框架,以消除潜在的主观偏差。
常用场景
经典使用场景
CAD-bench数据集专为评估语言模型在计算机辅助设计(CAD)领域中的代码生成与智能体能力而构建。其经典使用场景涉及将自然语言设计描述作为输入,驱动模型自动生成符合规范的CAD构件(如机械零件、装配体)的Build123D代码。基准测试包含17项精心设计的任务,涵盖从简单几何体到复杂功能装配的难度梯度,研究者可借助该数据集系统性地评测模型在CAD代码生成任务上的准确率、鲁棒性和泛化能力,从而推动CAD自动化设计技术的发展。
实际应用
在实际应用层面,CAD-bench数据集对于加速工业设计与制造流程的智能化转型具有重要价值。借助该基准评测出的高性能模型,可辅助工程师将自然语言需求(如“设计一个M3沉头螺钉”)快速转化为可编辑的CAD模型代码,从而显著缩短产品原型开发周期。此外,该数据集支持集成到自动化设计流水线中,实现从概念草图到加工文件的部分自动化生成,特别适用于定制化零件设计、快速模具开发以及装配体优化的早期阶段,降低了传统CAD软件的操作门槛。
衍生相关工作
基于CAD-bench数据集,已衍生出多项具有影响力的相关工作。研究者利用该基准对比分析了主流大语言模型(如GPT系列、开源代码模型)在CAD代码生成上的差异,并探索了结合检索增强生成(RAG)和少样本提示策略以提升模型在复杂装配任务上表现的做法。另有工作聚焦于构建端到端的CAD智能体系统,通过整合Build123D库与外部STEP文件处理模块,实现了对基准中功能性任务的更好解决。这些衍生研究不仅深化了对语言模型空间推理能力的理解,也催生了针对CAD领域专用模型微调与评估的新方法论框架。
以上内容由遇见数据集搜集并总结生成



