G-Code generation dataset

github2026-01-15 更新2026-02-06 收录

下载链接：

https://github.com/LLM-DfAM/LLM_G-Code_Generator

下载链接

链接失效反馈

官方服务：

资源简介：

数据集位于dataset/目录下，包含5,898对参数化齿轮设计（z, m, d）及其对应的真实G代码。

The dataset is located in the dataset/ directory, which contains 5,898 pairs of parameterized gear designs (z, m, d) and their corresponding actual G-codes.

创建时间：

2026-01-14

原始信息汇总

数据集概述

数据集基本信息

数据集名称：LLM-G-Code-Generator 数据集
关联研究：论文《Large language models for G-Code generation in design for additive manufacturing》
核心用途：支持一个端到端框架，用于利用大语言模型（LLMs）根据设计参数直接生成3D打印G代码。

数据集内容与规模

数据总量：5,898 对数据样本。
数据对构成：每对数据包含参数化齿轮设计参数（z, m, d）及其对应的真实G代码。
数据格式：包含原始CAD模型（.stl文件）和原始切片器输出的G代码（.gcode文件）。

数据集组织结构

数据集位于 dataset/ 目录下，具体结构如下：

stl_files/：存放原始CAD模型文件（.stl格式）。
gcode_files/：存放原始切片器输出的G代码文件（.gcode格式）。
train/：训练集，占数据总量的90%。
validation/：验证集，占数据总量的5%。
test/：测试集，占数据总量的5%。

结果可视化

仓库提供了训练与评估结果的可视化图表，相关图片位于 images/ 目录：

训练损失对比图：https://github.com/LLM-DfAM/LLM_G-Code_Generator/raw/main/images/Training_Loss.png
损失与困惑度分析图：https://github.com/LLM-DfAM/LLM_G-Code_Generator/raw/main/images/Model_Evaluation_Metrics.png

搜集汇总

数据集介绍

构建方式

在增材制造领域，G代码的生成是实现设计到制造转化的核心环节。本数据集构建了5898对参数化齿轮设计与其对应G代码的映射关系，涵盖了齿数、模数和直径等关键设计参数。数据集的构建过程首先基于参数化设计生成齿轮的三维CAD模型，随后通过专业切片软件将这些模型转换为标准G代码文件，确保了数据来源的可靠性与工艺准确性。为支持机器学习模型的训练与评估，数据集被划分为训练集、验证集和测试集，比例分别为90%、5%和5%，为模型提供了充分的学习样本与严格的性能检验基础。

特点

该数据集专注于参数化齿轮设计的G代码生成，其突出特点在于将几何设计参数与制造指令直接关联，为基于大语言模型的代码生成研究提供了结构化数据支持。数据集不仅包含原始的STL格式CAD模型与G代码文件，还提供了经过后处理的可打印G代码，体现了从设计到成品的完整制造链条。数据集的规模适中，覆盖了齿轮设计的常见参数范围，能够有效支撑模型学习设计参数与加工路径之间的复杂映射关系。这种针对特定制造场景的数据集设计，有助于推动智能编程技术在增材制造领域的应用发展。

使用方法

使用该数据集时，研究人员可遵循端到端的框架进行大语言模型的微调与评估。首先通过安装依赖项配置运行环境，随后利用提供的训练脚本对特定模型进行微调，以学习设计参数到G代码的生成规律。模型训练完成后，可通过评估脚本计算其在验证集和测试集上的交叉熵损失与困惑度，以量化模型性能。在推理阶段，模型能够根据输入的设计参数生成核心刀具路径G代码，再通过一系列后处理脚本依次添加头尾信息、填充单层路径并进行多层堆叠，最终输出可直接用于3D打印的可执行G代码文件，实现了从参数输入到制造指令生成的全自动化流程。

背景与挑战

背景概述

增材制造领域正经历从传统计算机辅助设计向智能化制造的范式转变，G-Code生成数据集应运而生，旨在探索大语言模型在直接根据设计参数生成三维打印指令代码方面的潜力。该数据集由相关研究团队于近期构建，核心研究聚焦于如何将齿轮的几何参数（如齿数、模数、直径）映射为可执行的G代码，从而简化制造流程并提升设计自动化水平。这一工作不仅推动了智能设计与增材制造的深度融合，也为后续研究提供了宝贵的基准数据，有望在定制化零部件快速成型等领域产生深远影响。

当前挑战

该数据集致力于解决增材制造中设计参数到可打印G代码的自动转换问题，其核心挑战在于确保生成代码的几何精确性与物理可执行性，避免因路径规划不当导致的打印失败或质量缺陷。在构建过程中，研究人员需克服从多样化的原始CAD模型与切片软件输出中提取并标注高质量G代码对的困难，同时保证数据集的规模与代表性，以有效支持大语言模型的训练与泛化。此外，后续处理流程的复杂性，如路径填充与多层堆叠，亦对生成结果的直接可用性提出了额外要求。

常用场景

经典使用场景

在增材制造领域，G-Code generation dataset为大型语言模型直接生成3D打印指令提供了关键数据基础。该数据集通过5898对齿轮参数化设计与其对应G代码的配对，典型应用于训练和评估LLM模型，以自动化实现从设计参数到可执行打印路径的端到端转换。这一场景革新了传统依赖切片软件的繁琐流程，为智能制造中的代码生成任务设立了新范式。

解决学术问题

该数据集有效解决了增材制造中设计到制造环节的自动化衔接难题。传统方法依赖人工操作或固定算法生成G代码，缺乏灵活性与泛化能力。通过提供大规模高质量配对数据，数据集支持研究者探索LLM在理解几何参数与运动控制语言间的映射关系，从而推动基于深度学习的代码生成、程序合成等核心学术问题的进展，并为跨模态推理研究提供实证基础。

衍生相关工作

围绕该数据集衍生的经典工作包括多种大型语言模型的微调与比较研究，如Qwen1-G-Coder、Qwen2-G-Coder及DeepSeek-G-Coder等模型的训练与评估框架。这些工作不仅验证了LLM在G代码生成任务上的可行性，还进一步探索了后处理流程如路径填充与多层堆叠的自动化集成，为后续研究在代码生成质量、跨领域适应性及实时性优化等方面奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集