CADTalk

Name: CADTalk
Creator: 爱丁堡大学
Published: 2024-03-26 02:03:41
License: 暂无描述

arXiv2024-03-26 更新2024-06-21 收录

下载链接：

https://enigma-li.github.io/CADTalk/

下载链接

链接失效反馈

官方服务：

资源简介：

CADTalk是一个包含5333个程序的数据集，由爱丁堡大学等机构创建，用于评估CAD程序的语义注释。数据集包括人工制作和机器生成的CAD程序，涵盖飞机、椅子、桌子和动物等多个类别。CADTalk通过半自动标注方法为每个程序块提供语义标签，旨在解决CAD程序理解和修改的难题，支持算法在理解和生成CAD程序方面的研究。

CADTalk is a dataset consisting of 5333 programs, created by institutions including the University of Edinburgh for evaluating semantic annotations of CAD programs. The dataset includes both manually authored and machine-generated CAD programs, covering multiple categories such as aircraft, chairs, tables, and animals. CADTalk provides semantic labels for each program block via a semi-automatic annotation approach, aiming to address the challenges in CAD program understanding and modification, and supports research on algorithms for understanding and generating CAD programs.

提供机构：

爱丁堡大学

创建时间：

2023-11-28

搜集汇总

数据集介绍

构建方式

在计算机辅助设计领域，CAD程序通常缺乏语义注释，这给程序的理解与编辑带来挑战。CADTalk数据集的构建采用了多源数据整合策略，从在线开源仓库和形状抽象算法中收集了5288个机器生成程序与45个人工设计程序。通过半自动标注流程，研究团队首先解析程序语法树以识别可注释的代码块，随后结合ChatGPT生成的语义部件列表，对每个代码块进行人工精校，确保注释与形状部件的语义关联性。数据集涵盖立方体与椭球体两种抽象表示，并区分了高、低两种细节层次，以全面评估算法在不同复杂度下的性能。

特点

CADTalk数据集在结构与内容上展现出显著的多维特性。其程序来源兼具人工设计的结构化代码与机器生成的扁平化指令，覆盖了从有机形状到几何抽象体的广泛形态。数据集中每个程序均附有部件级语义注释，注释粒度从2到10个部件不等，支持细粒度的语义分析。此外，数据集通过立方体与椭球体两种抽象方式以及不同细节层次，系统性地建模了形状近似度对语义识别的影响，为算法鲁棒性评估提供了丰富维度。这种设计使得CADTalk不仅能评估注释准确性，还能深入探究程序结构、形状几何与语义粒度之间的交互关系。

使用方法

CADTalk数据集为语义注释算法的评估提供了标准化框架。研究者可利用该数据集训练或测试CAD程序自动注释模型，通过执行输入程序生成三维形状，并运用多视角渲染与视觉语义分析技术，将代码块映射到对应的形状部件。数据集中包含的机器生成程序适用于大规模性能评估，而人工程序则用于测试算法在复杂结构与多样几何下的泛化能力。评估时可采用块准确率与语义交并比两项指标，并整合同义词映射机制以处理标签语义等效性。该数据集的使用有助于推动CAD程序可读性、程序逆向工程以及跨模态形状理解等相关研究的发展。

背景与挑战

背景概述

CADTalk数据集由爱丁堡大学、微软亚洲研究院、Inria、伦敦大学学院等机构的研究团队于2024年共同创建，旨在解决计算机辅助设计（CAD）程序语义注释的空白。该数据集聚焦于将CAD程序中的代码块与生成的三维形状语义部件进行关联标注，核心研究问题在于提升CAD程序的可读性与可编辑性，尤其关注程序代码与视觉语义之间的跨域映射。通过整合5288个机器生成程序与45个人工设计程序，CADTalk为CAD程序理解领域提供了首个基准测试平台，推动了基于视觉与语言模型的跨模态分析研究。

当前挑战

CADTalk数据集所针对的领域挑战在于实现CAD程序的语义分割与注释，这要求模型能够理解程序结构并识别其生成的几何部件，涉及跨程序域与视觉域的复杂对齐。构建过程中的挑战包括：其一，人工设计的CAD程序结构复杂多样，包含宏、循环等嵌套构造，需精确解析代码块层次；其二，机器生成的程序常呈现抽象几何形状，缺乏纹理细节，导致视觉识别困难；其三，数据标注需兼顾语义标签的开放性与一致性，需通过半自动流程结合人工校验以确保质量。

常用场景

经典使用场景

在计算机辅助设计领域，CADTalk数据集为语义注释任务提供了关键基准，其经典使用场景集中于自动化解析CAD程序结构并生成语义注释。通过结合程序解析与视觉语义分析，该数据集支持算法将代码块与对应的三维形状部件进行关联，从而实现对复杂CAD程序的智能化理解与注释生成。这一场景在提升CAD程序可读性和可编辑性方面具有重要价值，尤其适用于处理由人类设计或机器生成的多样化程序结构。

衍生相关工作

围绕CADTalk数据集，衍生了一系列经典研究工作，主要集中在CAD程序的结构化分析与语义注释生成领域。例如，ShapeCoder利用几何冗余发现自动生成代码宏，而PartSLIP则专注于零样本三维点云分割。这些工作借鉴了CADTalk的多视图渲染与开放词汇标签技术，进一步探索了CAD程序的抽象表示与语义一致性评估。此外，基于大型语言模型的代码注释方法也通过与CADTalk的结合，拓展了程序理解与生成的多模态研究路径。

数据集最近研究