five

CADTalk

收藏
arXiv2024-03-26 更新2024-06-21 收录
下载链接:
https://enigma-li.github.io/CADTalk/
下载链接
链接失效反馈
官方服务:
资源简介:
CADTalk是一个包含5333个程序的数据集,由爱丁堡大学等机构创建,用于评估CAD程序的语义注释。数据集包括人工制作和机器生成的CAD程序,涵盖飞机、椅子、桌子和动物等多个类别。CADTalk通过半自动标注方法为每个程序块提供语义标签,旨在解决CAD程序理解和修改的难题,支持算法在理解和生成CAD程序方面的研究。

CADTalk is a dataset consisting of 5333 programs, created by institutions including the University of Edinburgh for evaluating semantic annotations of CAD programs. The dataset includes both manually authored and machine-generated CAD programs, covering multiple categories such as aircraft, chairs, tables, and animals. CADTalk provides semantic labels for each program block via a semi-automatic annotation approach, aiming to address the challenges in CAD program understanding and modification, and supports research on algorithms for understanding and generating CAD programs.
提供机构:
爱丁堡大学
创建时间:
2023-11-28
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机辅助设计领域,CAD程序通常缺乏语义注释,这给程序的理解与编辑带来挑战。CADTalk数据集的构建采用了多源数据整合策略,从在线开源仓库和形状抽象算法中收集了5288个机器生成程序与45个人工设计程序。通过半自动标注流程,研究团队首先解析程序语法树以识别可注释的代码块,随后结合ChatGPT生成的语义部件列表,对每个代码块进行人工精校,确保注释与形状部件的语义关联性。数据集涵盖立方体与椭球体两种抽象表示,并区分了高、低两种细节层次,以全面评估算法在不同复杂度下的性能。
特点
CADTalk数据集在结构与内容上展现出显著的多维特性。其程序来源兼具人工设计的结构化代码与机器生成的扁平化指令,覆盖了从有机形状到几何抽象体的广泛形态。数据集中每个程序均附有部件级语义注释,注释粒度从2到10个部件不等,支持细粒度的语义分析。此外,数据集通过立方体与椭球体两种抽象方式以及不同细节层次,系统性地建模了形状近似度对语义识别的影响,为算法鲁棒性评估提供了丰富维度。这种设计使得CADTalk不仅能评估注释准确性,还能深入探究程序结构、形状几何与语义粒度之间的交互关系。
使用方法
CADTalk数据集为语义注释算法的评估提供了标准化框架。研究者可利用该数据集训练或测试CAD程序自动注释模型,通过执行输入程序生成三维形状,并运用多视角渲染与视觉语义分析技术,将代码块映射到对应的形状部件。数据集中包含的机器生成程序适用于大规模性能评估,而人工程序则用于测试算法在复杂结构与多样几何下的泛化能力。评估时可采用块准确率与语义交并比两项指标,并整合同义词映射机制以处理标签语义等效性。该数据集的使用有助于推动CAD程序可读性、程序逆向工程以及跨模态形状理解等相关研究的发展。
背景与挑战
背景概述
CADTalk数据集由爱丁堡大学、微软亚洲研究院、Inria、伦敦大学学院等机构的研究团队于2024年共同创建,旨在解决计算机辅助设计(CAD)程序语义注释的空白。该数据集聚焦于将CAD程序中的代码块与生成的三维形状语义部件进行关联标注,核心研究问题在于提升CAD程序的可读性与可编辑性,尤其关注程序代码与视觉语义之间的跨域映射。通过整合5288个机器生成程序与45个人工设计程序,CADTalk为CAD程序理解领域提供了首个基准测试平台,推动了基于视觉与语言模型的跨模态分析研究。
当前挑战
CADTalk数据集所针对的领域挑战在于实现CAD程序的语义分割与注释,这要求模型能够理解程序结构并识别其生成的几何部件,涉及跨程序域与视觉域的复杂对齐。构建过程中的挑战包括:其一,人工设计的CAD程序结构复杂多样,包含宏、循环等嵌套构造,需精确解析代码块层次;其二,机器生成的程序常呈现抽象几何形状,缺乏纹理细节,导致视觉识别困难;其三,数据标注需兼顾语义标签的开放性与一致性,需通过半自动流程结合人工校验以确保质量。
常用场景
经典使用场景
在计算机辅助设计领域,CADTalk数据集为语义注释任务提供了关键基准,其经典使用场景集中于自动化解析CAD程序结构并生成语义注释。通过结合程序解析与视觉语义分析,该数据集支持算法将代码块与对应的三维形状部件进行关联,从而实现对复杂CAD程序的智能化理解与注释生成。这一场景在提升CAD程序可读性和可编辑性方面具有重要价值,尤其适用于处理由人类设计或机器生成的多样化程序结构。
衍生相关工作
围绕CADTalk数据集,衍生了一系列经典研究工作,主要集中在CAD程序的结构化分析与语义注释生成领域。例如,ShapeCoder利用几何冗余发现自动生成代码宏,而PartSLIP则专注于零样本三维点云分割。这些工作借鉴了CADTalk的多视图渲染与开放词汇标签技术,进一步探索了CAD程序的抽象表示与语义一致性评估。此外,基于大型语言模型的代码注释方法也通过与CADTalk的结合,拓展了程序理解与生成的多模态研究路径。
数据集最近研究
最新研究方向
在计算机辅助设计(CAD)领域,CADTalk数据集的推出标志着语义化程序注释研究迈入新阶段。该数据集聚焦于将CAD程序中的代码块与生成的三维形状语义部件进行关联注释,旨在解决传统CAD程序因缺乏语义注释而导致的可读性与可编辑性难题。前沿研究主要围绕跨模态视觉语义分析展开,通过结合程序解析与基于大语言模型和视觉基础模型的视觉推理,实现从无纹理CAD渲染到逼真图像的转换,进而利用开放词汇检测与分割技术识别部件语义。这一方向不仅推动了CAD程序的可解释性发展,也为生成式CAD建模、程序抽象与逆向工程等热点应用提供了关键支撑,对提升设计自动化与智能化水平具有深远意义。
相关研究论文
  • 1
    CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD Programs爱丁堡大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作