FutureCAD

github2026-05-01 更新2026-05-19 收录

下载链接：

https://github.com/JohanStackk/FutureCAD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文Towards High-Fidelity CAD Generation via LLM-Driven Program Generation and Text-Based B-Rep Primitive Grounding，支持高保真CAD生成，包含LLM驱动的程序生成和基于文本的B-Rep基元接地。

本数据集服务于论文《Towards High-Fidelity CAD Generation via LLM-Driven Program Generation and Text-Based B-Rep Primitive Grounding》，可支撑高保真计算机辅助设计（Computer Aided Design，CAD）生成任务，其涵盖基于大语言模型（Large Language Model，LLM）驱动的程序生成以及基于文本的边界表示法（Boundary Representation，B-Rep）基元接地技术。

创建时间：

2026-04-26

原始信息汇总

FutureCAD 数据集概述

基本信息

数据集名称：FutureCAD
所属项目：面向高保真 CAD 生成的 LLM 驱动程序生成与文本驱动的 B-Rep 基元定位（ICML 2026 Spotlight 论文）
论文地址：arXiv:2603.11831
下载链接：Google Drive

数据集用途

该数据集用于支持通过大语言模型（LLM）驱动程序生成和基于文本的 B-Rep（边界表示）基元定位，以实现高保真 CAD（计算机辅助设计）模型生成。

当前状态

数据集已在 Google Drive 上提供下载，但相关的代码、数据集处理脚本以及使用脚本尚未发布（标注为“待发布”）。

搜集汇总

数据集介绍

构建方式

FutureCAD数据集是面向三维计算机辅助设计（CAD）领域的高保真生成任务而构建的。该数据集以文本形式的边界表示（B-Rep）图元为基础，通过结合大型语言模型（LLM）驱动的程序生成技术，实现了对CAD模型的精确描述与结构建模。数据集的构建过程涉及从现有CAD设计资源中提取B-Rep图元，并将其文本化表达与对应的程序代码配对，形成可用于监督学习的训练样本。每个样本均包含完整的图元几何信息与程序化构建逻辑，为后续的生成任务提供了细粒度的语义对齐基础。

特点

FutureCAD数据集的核心特点在于其高保真度与结构化表达能力。与传统的点云或网格表示不同，该数据集采用B-Rep图元作为基本单元，能够精确刻画CAD模型的边界、曲面与拓扑关系，从而服务于高质量的几何生成。数据集中的样本通过文本描述与程序代码双重模态进行标注，兼具语义理解与指令生成的灵活性。此外，其设计初衷在于支持LLM驱动的端到端CAD生成，使得模型能够在理解自然语言指令的同时，直接输出符合工程标准的结构化CAD模型。

使用方法

该数据集的使用方法主要面向基于大语言模型的CAD生成任务。研究者可将数据集中的文本-程序对用于训练或微调LLM，使其掌握从自然语言描述到B-Rep程序代码的映射能力。使用时，通过加载Google Drive提供的压缩包解压后，可直接获取结构化的数据文件，并结合后续将公开的数据处理与使用脚本进行模型训练。数据集的格式设计便于集成到常见的深度学习框架中，支持批量读取与数据增强操作，适合用于生成高保真CAD模型的端到端系统开发与评估。

背景与挑战

背景概述

在计算机辅助设计（CAD）领域，从文本描述或部分输入自动生成高保真度的三维模型是人工智能与工程交叉的前沿方向。FutureCAD数据集由研究团队于2025年创建（对应ICML 2026 Spotlight论文），旨在解决基于大型语言模型（LLM）的程序化CAD生成问题，核心研究目标是通过文本驱动的边界表示（B-Rep）基元定位，实现从LLM生成的程序代码到高精度几何模型的转换。该数据集填补了CAD领域缺乏细粒度文本-程序-几何对齐标注的空白，为提升生成模型的保真度与可控性提供了关键训练资源，其提出的范式有望推动自动化设计、快速原型制造等应用的发展。

当前挑战

该数据集构建面临两大挑战：领域问题层面，现有CAD生成方法在模型精度与复杂结构复现上存在严重退化，尤其是程序化输出与B-Rep表示之间的语义鸿沟导致几何失真，亟需能够联合建模文本指令、程序逻辑与三维几何的新型数据集与框架。构建过程中，极难获取既包含完整程序化建模流程又带有精确文本描述的工业级CAD模型，且需人工标注每个基元与文本片段的对应关系，标注工作量大、一致性要求极高；此外，不同CAD软件导出的B-Rep格式存在异构性，数据清洗与标准化处理显著增加了建设成本与时间开销。

常用场景

经典使用场景

在计算机辅助设计与人工智能交叉领域，FutureCAD数据集专为基于文本生成高保真三维CAD模型的任务而设计。其核心应用场景在于驱动大语言模型（LLM）通过程序合成方式生成B-Rep（边界表示）几何体，并实现文本语义与原始几何基元的精准对齐。研究人员利用该数据集训练模型，将自然语言描述直接转化为结构化的CAD操作序列，从而生成具有工业级细节的实体模型。这一范式突破了传统参数化建模依赖专家手动操作的局限，为智能设计自动化提供了数据基础。

衍生相关工作

基于FutureCAD数据集，研究者已开展多项衍生工作：一是探索结合强化学习的闭环纠错机制，使生成程序能够根据几何验证反馈进行自我修正；二是将数据集与多模态对齐技术融合，开发能够同时处理文本、草图与点云输入的统一CAD生成框架；三是借鉴代码生成领域的测试时计算（test-time compute）策略，通过扩展推理路径来提升复杂几何拓扑的生成成功率。这些衍生工作共同推动LLM驱动CAD生成从原型验证阶段迈向工业级可靠应用，彰显了该数据集作为领域标杆资源的持续影响力。

数据集最近研究