five

Synthetic CAD sketch-extrude dataset|CAD设计数据集|逆向工程数据集

收藏
arXiv2024-12-19 更新2024-12-25 收录
CAD设计
逆向工程
下载链接:
http://arxiv.org/abs/2412.14042v1
下载链接
链接失效反馈
资源简介:
该数据集是由卢森堡大学和Artec3D合作创建的合成CAD sketch-extrude序列数据集,包含一百万条多样化的CAD模型序列,编码为Python CadQuery代码。数据集通过自动合成生成,确保了模型在训练过程中接触到多样化的设计特征和模式。该数据集主要用于CAD逆向工程,旨在从点云数据中重建CAD模型,解决现有数据集规模小、多样性不足的问题,并为CAD编辑和CAD问答提供支持。
提供机构:
卢森堡大学
创建时间:
2024-12-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
Synthetic CAD sketch-extrude dataset 的构建基于自动化生成流程,利用 Python CadQuery 库生成了一百万个多样化的 CAD 草图-拉伸序列。该数据集通过随机参数化草图-拉伸序列与几何拓扑启发式方法相结合,确保生成的 CAD 模型的有效性和多样性。每个模型都经过归一化处理,确保其位于单位边界框内,并且参数经过量化处理,以控制模型的精度和复杂性。此外,数据集中的代码片段可直接在 Python 环境中执行,便于后续的模型训练和验证。
特点
该数据集的特点在于其规模庞大且多样性丰富,涵盖了一百万个有效的 CAD 模型,每个模型都以 Python CadQuery 代码的形式表示。这种代码表示不仅具有高度的可解释性,还能够直接与现代 CAD 软件兼容。数据集中的模型涵盖了从简单几何形状到复杂结构的广泛设计特征,确保了模型训练时的多样性和全面性。此外,数据集的生成过程完全自动化,避免了人工干预带来的偏差,确保了数据的一致性和可靠性。
使用方法
该数据集主要用于训练和验证 CAD 逆向工程模型,特别是基于点云的 CAD 草图-拉伸序列生成任务。研究人员可以使用该数据集来训练深度学习模型,学习从点云到 CAD 代码的映射关系。在训练过程中,模型会接触到多样化的 CAD 设计特征和操作,从而提高其在实际应用中的泛化能力。此外,该数据集还可用于评估模型的性能,通过比较生成的 CAD 代码与真实模型的几何相似性,验证模型的有效性。数据集中的代码可直接执行,便于研究人员进行后续的模型编辑和优化。
背景与挑战
背景概述
Synthetic CAD sketch-extrude dataset是由卢森堡大学的SnT研究中心与Artec3D公司合作创建的一个大规模合成数据集,旨在解决计算机辅助设计(CAD)逆向工程中的关键问题。该数据集于2024年发布,主要研究人员包括Danila Rukhovich、Elona Dupont、Dimitrios Mallis等。其核心研究问题是从点云数据中重建CAD模型的草图-拉伸序列,并将其表示为可执行的Python代码。这一研究推动了CAD逆向工程领域的发展,特别是在利用预训练大语言模型(LLM)进行几何重建方面,显著提升了模型的性能与可解释性。该数据集的影响力体现在其首次将CAD序列表示为Python代码,并通过大规模合成数据解决了现有数据集的多样性与规模限制。
当前挑战
Synthetic CAD sketch-extrude数据集面临的挑战主要集中在两个方面。首先,在领域问题方面,CAD逆向工程的核心挑战是从点云中准确重建CAD模型的草图-拉伸序列,并确保生成的代码能够直接执行。这一过程不仅需要精确的几何重建,还需捕捉设计意图,以便生成的模型能够在CAD软件中进行进一步编辑。其次,在数据集构建过程中,研究人员面临的主要挑战是如何生成大规模且多样化的CAD序列数据。现有数据集如DeepCAD和Fusion360在规模和多样性上存在局限,而合成数据集的构建需要确保生成的CAD模型既具有几何有效性,又能涵盖复杂的设计特征。此外,如何将点云数据与Python代码之间的映射关系有效地编码到模型中,也是一个重要的技术挑战。
常用场景
经典使用场景
Synthetic CAD sketch-extrude dataset 主要用于计算机辅助设计(CAD)逆向工程领域,特别是在从点云数据中重建CAD模型的过程中。该数据集通过生成大量的CAD草图-拉伸序列,帮助研究人员训练和验证模型,以从点云数据中推断出CAD操作序列。这一过程在工业设计、产品逆向工程和3D建模中具有重要应用。
衍生相关工作
基于Synthetic CAD sketch-extrude dataset,研究人员开发了多种先进的CAD逆向工程模型,如CAD-Recode。该模型通过结合预训练的大型语言模型(LLM)和轻量级点云投影器,能够从点云数据中生成可执行的Python代码,显著提升了CAD重建的精度和效率。此外,该数据集还催生了CAD-QA(CAD问答)等新应用,展示了其在CAD模型理解和编辑方面的潜力。
数据集最近研究
最新研究方向
在计算机辅助设计(CAD)领域,Synthetic CAD sketch-extrude dataset的最新研究方向聚焦于利用大语言模型(LLMs)进行CAD逆向工程。通过将点云数据转换为可执行的Python代码,CAD-Recode模型能够重建CAD模型,并捕捉设计意图。这一方法不仅显著提升了现有方法的性能,还在DeepCAD和Fusion360数据集上实现了10倍于现有方法的Chamfer距离降低。此外,该数据集的研究还展示了如何通过LLMs进行CAD编辑和问答,进一步推动了CAD自动化设计的发展。这一研究方向不仅解决了传统CAD逆向工程中的复杂性和数据稀缺问题,还为未来的CAD设计工具提供了新的可能性。
相关研究论文
  • 1
    CAD-Recode: Reverse Engineering CAD Code from Point Clouds卢森堡大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

大学生运动和体质健康数据集(2014-2023)

《大学生运动与体质健康数据集(2014-2023)》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年,样本采集自全国34个省级行政区域,共计123281名大学生参与,平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势,了解大学生运动和体质健康状况,对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录