five

CADEvolve

收藏
github2026-02-19 更新2026-02-21 收录
下载链接:
https://github.com/zhemdi/CADEvolve
下载链接
链接失效反馈
官方服务:
资源简介:
CADEvolve是一个基于进化的管道、数据集和训练代码库,用于生成工业级、有效的CAD程序,并微调视觉语言模型(VLMs)用于Image2CAD。数据集包含约8k个复杂的、有效的部件作为可执行的CadQuery参数生成器,以及约1.3M个CadQuery脚本与多视图渲染配对的统一大规模数据集。

CADEvolve is an evolutionary-based pipeline, dataset, and training codebase designed for generating industrial-grade, valid CAD programs, as well as fine-tuning Vision-Language Models (VLMs) for the Image2CAD task. This dataset encompasses approximately 8,000 complex, valid components that serve as executable CadQuery parameterized generators, alongside a unified large-scale dataset containing roughly 1.3 million paired samples of CadQuery scripts and their corresponding multi-view renderings.
创建时间:
2026-02-09
原始信息汇总

CADEvolve 数据集概述

数据集基本信息

  • 数据集名称:CADEvolve
  • 核心内容:用于生成工业级、有效的CAD程序的数据集与训练代码库,专注于Image2CAD任务。
  • 数据集地址:https://huggingface.co/datasets/kulibinai/cadevolve
  • 关联模型地址:https://huggingface.co/kulibinai/cadevolve-rl1
  • 论文地址:https://arxiv.org/abs/2602.16317

数据集生成流程

  1. 演化生成:从46个手写的CadQuery生成器(种子)出发,通过视觉-语言模型引导的编辑和几何验证,逐步增加程序复杂度,最终生成约8,000个复杂的、有效的CadQuery参数化生成器(代表零件)。
  2. 数据集扩展:对演化生成的生成器进行多阶段后处理和增强,扩展为一个统一的大规模数据集。
  3. 模型训练与评估:提供用于Image2CAD视觉-语言模型的监督微调、推理和评估的代码。

数据集规模与内容

  • 演化生成的CAD:约8,000个复杂、有效的零件,以可执行的CadQuery参数化生成器形式提供。
  • 统一大规模数据集:约130万(≈1.3M)个CadQuery脚本,每个脚本都配有多视角渲染图像,覆盖了完整的CadQuery操作集。

代码库结构

  • dataset_utils/:包含后处理和增强流程,用于将演化生成的生成器扩展为完整数据集。
  • evolution/:包含演化流程的主要脚本,用于从种子生成复杂的CadQuery生成器。
  • train/:包含用于Image2CAD视觉-语言模型的监督微调、推理和评估的所有训练工具。

主要用途

  • 生成工业级、有效的CAD程序。
  • 为Image2CAD任务微调视觉-语言模型。
  • 提供包含代码与多视角渲染图像配对的大规模数据集,用于相关研究。
搜集汇总
数据集介绍
构建方式
在计算机辅助设计领域,数据集的构建往往依赖于手工建模或现有模型的收集,而CADEvolve采用了一种创新的演化式构建方法。该数据集以46个手工编写的CadQuery脚本为初始种子,通过视觉语言模型引导的编辑操作与几何验证相结合,逐步演化出约8000个复杂的参数化生成器。整个演化过程强调程序的有效性与工业级质量,确保生成的CAD模型既具备结构复杂性,又符合几何合理性,从而为后续的数据扩展奠定了坚实基础。
特点
CADEvolve数据集在CAD生成领域展现出鲜明的技术特色,其核心在于提供了大规模、高质量的CAD程序与多视角渲染图像的配对数据。该数据集包含约130万条CadQuery脚本,全面覆盖了CadQuery操作集,确保了数据的多样性与完整性。每一脚本均对应经过严格几何验证的工业级部件,且附带多视角渲染图像,为视觉语言模型的训练提供了丰富而一致的输入。这种程序与视觉数据的紧密结合,使得数据集特别适用于图像到CAD代码的生成任务。
使用方法
对于希望利用CADEvolve进行研究的用户,数据集的使用遵循清晰的技术路径。用户首先可通过Hugging Face平台直接获取已处理完毕的数据集,其中包含了脚本与渲染图像的配对。若需复现或定制数据生成过程,仓库提供了完整的代码管线:从运行演化管道生成基础部件,到利用数据工具进行多阶段后处理与扩增,最终形成统一格式的数据集。此外,配套的训练代码支持对视觉语言模型进行监督微调、推理以及标准的Image2CAD指标评估,实现了从数据到模型应用的全流程覆盖。
背景与挑战
背景概述
在计算机辅助设计(CAD)领域,生成高质量且结构有效的CAD程序一直是工业设计与自动化中的核心难题。CADEvolve数据集由Maksim Elistratov等研究人员于2026年提出,旨在通过程序演化技术创建工业级、有效的CAD程序,并支持视觉-语言模型在Image2CAD任务中的微调。该数据集基于演化管道,从少量手工编写的CadQuery生成器出发,通过视觉-语言模型引导的编辑与几何验证,逐步扩展至约8千个复杂部件,最终形成一个包含约130万脚本与多视图渲染配对的统一大规模数据集。CADEvolve不仅推动了CAD程序生成的自动化进程,还为图像到CAD代码的转换研究提供了丰富且可靠的训练资源,对智能制造与设计优化领域具有显著影响力。
当前挑战
CADEvolve数据集致力于解决图像到CAD代码转换(Image2CAD)中的挑战,其核心在于生成工业级且几何有效的CAD程序。这一领域问题面临的主要挑战包括:如何确保生成的CAD代码在结构上合理且可执行,以及如何从图像中准确提取并转换复杂的几何与拓扑信息。在数据集构建过程中,研究人员需克服程序演化中的复杂性增长难题,通过视觉-语言模型引导的编辑与严格的几何验证来维持生成部件的有效性与多样性。此外,将演化生成的约8千个部件扩展至约130万脚本的大规模数据集,涉及多阶段后处理与增强,这要求高效的管道设计与资源管理,以确保数据的一致性与覆盖度。
常用场景
经典使用场景
在计算机辅助设计(CAD)与人工智能交叉领域,CADEvolve数据集为图像到CAD程序生成任务提供了关键支持。该数据集通过进化算法生成约8千个复杂且几何有效的CadQuery参数化生成器,并扩展为包含约130万脚本与多视图渲染配对的统一大规模数据集。其经典使用场景在于训练视觉-语言模型,实现从二维图像自动生成工业级、可执行的CAD代码,推动设计自动化进程。
解决学术问题
CADEvolve数据集有效应对了CAD程序生成中数据稀缺与几何有效性的核心挑战。传统方法往往受限于手工标注成本高昂或生成结果几何无效的问题,而该数据集通过VLM引导的进化流程与几何验证,确保了生成程序的复杂性与正确性。这为图像到CAD转换、程序合成及几何推理等研究方向提供了高质量、可扩展的基准数据,显著提升了模型在真实工业场景中的泛化能力与可靠性。
衍生相关工作
围绕CADEvolve数据集,已衍生出多项经典研究工作,主要集中在图像到CAD的视觉-语言模型微调与评估框架上。例如,基于该数据集的监督微调流程被用于优化模型对复杂几何结构的理解能力;同时,其提供的多视图渲染与标准评估指标为后续研究建立了统一的性能基准。这些工作共同推动了CAD生成领域的算法进步,并为结合程序进化与深度学习的新型方法提供了可复现的实验基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作