MUSE

Name: MUSE
Creator: 香港理工大学; Curvature Flow 有限公司
Published: 2026-05-27 23:01:59
License: 暂无描述

arXiv2026-05-27 更新2026-05-29 收录

下载链接：

https://dong7313.github.io/muse-benchmark/

下载链接

链接失效反馈

官方服务：

资源简介：

MUSE是由香港理工大学与Curvature Flow有限公司联合构建的文本到CAD生成基准数据集，专注于复杂、可编辑的边界表示装配体。该数据集包含高质量的设计实例，每个实例均配有结构化的设计规范、标准化工程视图及可执行的CadQuery脚本，数据通过专家手工建模与大型语言模型驱动的增强流程协同生成。其核心应用在于推动文本到CAD技术从几何生成迈向真正的工程设计，旨在系统评估生成模型在功能性、可制造性与可装配性等工业级指标上的实际表现。

MUSE is a text-to-CAD generation benchmark dataset jointly developed by The Hong Kong Polytechnic University and Curvature Flow Limited, focusing on complex, editable boundary representation (B-rep) assemblies. This dataset contains high-quality design instances, each paired with structured design specifications, standardized engineering views, and executable CadQuery scripts. The dataset is collaboratively generated through a hybrid workflow integrating expert manual modeling and large language model (LLM)-driven augmentation. Its core application lies in advancing text-to-CAD technology from geometric generation to authentic engineering design, with the goal of systematically evaluating the practical performance of generative models across industrial-level metrics including functionality, manufacturability, and assemblability.

提供机构：

香港理工大学; Curvature Flow 有限公司

创建时间：

2026-05-27

原始信息汇总

数据集概述：MUSE (Text-to-CAD Benchmark)

名称：MUSE (Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation)

核心定位：一个专注于评估复杂、可编辑的边界表示（B-Rep）组件装配体的 Text-to-CAD 基准。

目标：推动 Text-to-CAD 从生成几何形状迈向真正的工程设计，评估输出模型的功能性（Functionality）、可制造性（Manufacturability）和可装配性（Assemblability）。

数据集内容：

包含实际的、多组件的 CAD 装配体设计实例。每个实例都配对了结构化的 设计规范（Design Specifications）。

评估方法：采用三阶段漏斗式评估协议（任一阶段失败则下游评估归零）：

代码检查（Code Check）：评估生成的 CadQuery 脚本能否无错误执行。
几何检查（Geometry Check）：通过四项 OCCT 检测（水密性、流形性、无自相交、无重叠）评估几何有效性。
设计意图对齐（Design-Intent Alignment）：使用基于规则（rubric）的视觉语言模型（VLM）作为评判，针对每个实例的特定规则，从功能性、可制造性、可装配性三个维度评分，最终得分为三者均值。

主要发现：

现有模型存在明显的 失败级联——从生成可执行代码到生成有效几何，再到生成工程就绪的设计，成功率依次递减。
最强的闭源模型（如 gpt-5.5, gemini-3.1-pro）在最终评分（Final Score）上表现领先，但在细粒度工程标准上成功率有限。

主页与资源：

主页地址：https://dong7313.github.io/muse-benchmark/
论文地址：https://arxiv.org/abs/2605.28579
代码仓库：GitHub (源链接未给出具体地址)
数据集：🤗 Hugging Face (具体地址未给出)

致谢与许可：

引用论文：@misc{dong2026muse, ...} (详见页面内容)
数据集许可：CC BY 4.0

搜集汇总

数据集介绍

构建方式

MUSE数据集的构建采用了一种融合人类专家知识与大语言模型可扩展能力的人机协同流水线。首先，由专业设计师依据多样化的设计类别手工构建高质量的种子三维模型，并将其建模流程转化为可执行的CadQuery脚本。随后，借助Claude Opus 4.7等先进语言模型，沿着风格变换与功能迁移两个维度对初始脚本进行系统性扩充，以生成形态各异的设计变体。为了支撑可靠的评测，所有模型皆被转换为标准化工程视图，精确提取边界、轮廓与隐藏线。最后，通过少量示例提示，由GPT-5.5生成包含设计描述、装配图、有效参数空间及制造约束的结构化设计规范，并交由人类专家审核校正，确保每份设计实例兼具功能性与实用性。

特点

MUSE数据集的核心特色在于其对工程可用性的深度聚焦与多维度的评估框架。不同于仅关注几何相似性的传统基准，MUSE中的每个设计实例皆由结构化的设计规范严格定义，涵盖物理装配图、有效参数范围与制造计划，从而将评估从形状匹配提升至功能、可制造性与可装配性的实际设计质量层面。数据集涵盖了106个设计实例，横跨CNC铣削、3D打印、激光切割等多种制造工艺，以及木材、PLA、金属等材质，并包括一体式、互锁、钉合、卡扣等连接方式，尤其强调可装配的CAD模型。其三层递进式评估协议——代码执行性、几何有效性与设计意图对齐——严苛检验模型在真实工程约束下的生成能力，揭示了现有模型从代码生成到工程级设计的级联失败模式。

使用方法

MUSE数据集的使用遵循其定义的三阶段评测协议。给定一份结构化的设计规范，待评测的文本到CAD模型需先生成对应的CadQuery脚本。第一阶段在沙盒环境中执行该脚本，检查其能否成功导出STEP格式的CAD模型。第二阶段对导出的模型进行几何有效性检查，包含水密性、流形性、无自交与无重叠四项二元指标。仅通过前两阶段检验的模型进入第三阶段，被转换为标准化工程视图，并由基于视觉语言模型的裁判依据设计特定评分标准，从功能性（参数空间有效性）、可制造性（材料与工艺约束满足性）及可装配性（组件拓扑与接口保持性）六个子维度进行打分。研究者可直接使用公开的排行榜、数据集与代码资源，复现或扩展对各类大型语言模型在工程引导的文本到CAD生成任务上的评估。

背景与挑战

背景概述

MUSE由香港理工大学与Curvature Flow公司于2026年联合创建，聚焦于文本驱动的计算机辅助设计（Text-to-CAD）领域，旨在解决现有基准仅关注单一零件几何相似性、忽视工程实用性的核心问题。该数据集包含106个设计实例，涵盖CNC铣削、3D打印、激光切割等制造工艺，以及木材、PLA等多种材料，每个实例均配有结构化设计规范，包括组件装配图、有效参数空间和制造方案。MUSE的提出将Text-to-CAD的研究范式从视觉形状匹配转向功能性、可制造性与可装配性的工程化评估，为AI辅助工业产品设计提供了更具现实意义的基准测试平台，在学术界和工业界均产生了重要影响。

当前挑战

MUSE所解决的领域挑战在于，现有Text-to-CAD基准依赖几何相似度指标（如倒角距离）评估生成模型，忽略功能性、可制造性与可装配性，导致模型虽能生成外观相似的CAD模型，却难以产出真正可用的工程设计方案。构建过程中面临的挑战包括：首先，设计实例需兼顾多组件结构与装配约束，每个实例均需经验丰富的设计师投入大量精力，使得高质量数据极为稀缺；其次，评估框架需突破传统几何检查，设计涵盖代码可执行性、几何有效性及设计意图对齐的三阶段协议，并依赖视觉语言模型进行细粒度评判；最后，确保自动化评判与人工标注的高度一致性，以支撑可扩展的可靠评估。

常用场景

经典使用场景

在计算机辅助设计（CAD）与自然语言处理交叉的研究领域中，MUSE数据集被广泛用于评估和推动文本生成CAD模型（Text-to-CAD）技术的发展。其经典使用场景聚焦于从结构化设计说明书（Design Specification）出发，生成包含多个组件的可编辑边界表示（B-Rep）装配体。研究者利用MUSE的三阶段评估协议（代码可执行性、几何有效性、设计意图对齐），系统性地衡量生成模型在功能、可制造性和可装配性维度的表现，超越了传统的几何相似度度量方法。这为学术界提供了一种从视觉相似性向工程设计质量转变的评估范式。

衍生相关工作

MUSE数据集催生了多个具有深远影响的衍生工作，推动了Text-to-CAD领域的实质性进步。首先，研究者基于其结构化设计说明书提出了CADCodeVerify、CADSmith等多智能体协作框架，利用视觉语言模型对生成的几何体进行迭代验证与修正。其次，EvoCAD等进化算法类工作借助MUSE的制造约束表格，在代码生成空间中探索参数优化，显著提升了设计的功能鲁棒性。此外，该数据集的装配图拓扑约束启发了如ArtiCAD等面向装配体生成的文本驱动方法，将研究从单一零件拓展至多组件协同设计。这些工作共同验证了将工程先验知识融入生成过程的必要性，形成了可复现、可比较的学术生态。

数据集最近研究