FDM-Bench
收藏arXiv2024-12-13 更新2024-12-17 收录
下载链接:
https://github.com/AhmadrezaNia/FDM-Bench
下载链接
链接失效反馈官方服务:
资源简介:
FDM-Bench是一个用于评估大型语言模型在熔融沉积建模(FDM)任务中的基准数据集。该数据集由伊利诺伊大学厄巴纳-香槟分校和罗格斯大学等机构创建,旨在通过用户查询和G代码样本评估模型在FDM任务中的表现。数据集包含不同经验水平的用户查询和带有多种异常的G代码样本,帮助评估模型在检测打印缺陷和响应用户查询方面的能力。FDM-Bench的应用领域主要集中在增材制造中的缺陷检测和优化打印质量,旨在解决FDM技术中的复杂参数管理和缺陷诊断问题。
FDM-Bench is a benchmark dataset designed for evaluating the performance of Large Language Models (LLMs) on Fused Deposition Modeling (FDM) tasks. Developed by the University of Illinois Urbana-Champaign, Rutgers University, and other institutions, this dataset aims to assess LLMs' performance on FDM tasks through user queries and G-code samples. It includes user queries from users with varying levels of expertise, as well as G-code samples containing multiple types of anomalies, enabling the evaluation of models' abilities to detect printing defects and respond to user inquiries. The primary application areas of FDM-Bench lie in defect detection and print quality optimization within additive manufacturing, and it is intended to address the challenges of complex parameter management and defect diagnosis in FDM technology.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-12-13
原始信息汇总
FDM-Bench 数据集概述
FDM-Bench 是一个用于评估大型语言模型(LLMs)在熔融沉积建模(FDM)特定任务上的基准数据集,包括 G-code 异常检测、用户查询和多项选择题。
数据集概览
1. 带标签的 G-Codes
- 异常检测:包含标记了特定异常的 G-codes,包括无缺陷(Non-defective, ND)、欠挤出(Under-extrusion, UE)、过挤出(Over-extrusion, OE)和面条状缺陷(Spaghetti, SP)。
- 评估类型:每个 G-code 可用于确定性标签(单一标签输出)和基于概率的标签。
2. 自由形式问题
- 专业水平:问题按用户专业水平分类,包括初学者(Beginner)、有经验者(Experienced)和理论水平(Theoretical)。
- 示例:提供参考以确保评估一致性。
- 评估者评分:提供四个 LLM 模型(GPT-4、Claude、Llama-3.1-70B 和 Llama-3.1-405B)在三个指标(准确性、精确性和相关性)上的评分,评分范围为 1 到 5。
3. 多项选择题(MCQs)
- 经验水平:与自由形式问题类似,分为初学者(B)、有经验者(E)和理论水平(T)。
- 标准答案:包含答案键以评估模型准确性。
4. 提示
- 任务特定提示:包括每种任务类型的提示(G-code 检测、自由形式响应和多项选择题)。
如需更详细的信息,请参阅相关研究论文。
搜集汇总
数据集介绍

构建方式
FDM-Bench数据集的构建旨在评估大型语言模型(LLMs)在增材制造(AM)任务中的表现,特别是熔融沉积建模(FDM)技术。该数据集通过模拟不同经验水平的用户查询和包含多种异常的G-code样本,构建了一个全面的评估框架。具体而言,数据集包括了从初学者到高级研究人员的多样化用户查询,以及通过调整打印参数(如床温、喷嘴温度、打印速度等)生成的G-code样本,这些样本涵盖了从无缺陷到多种打印异常(如欠挤出、过挤出、 spaghetti等)的情况。
特点
FDM-Bench数据集的主要特点在于其多样性和全面性。首先,它涵盖了从初学者到专家的不同用户经验水平,确保了模型在不同场景下的适应性。其次,数据集中的G-code样本包含了多种打印异常,能够有效评估模型在实际应用中的缺陷检测能力。此外,数据集还结合了自由形式问题和多项选择题,既支持自动评分,又允许专家进行深入的定性评估,从而提供了多维度的模型性能评估。
使用方法
FDM-Bench数据集可用于评估大型语言模型在FDM任务中的表现,包括用户查询响应和G-code异常检测。用户可以通过该数据集对模型进行基准测试,评估其在不同任务中的准确性、精度和相关性。具体使用方法包括:首先,将模型应用于数据集中的用户查询,评估其对不同经验水平用户的响应能力;其次,利用G-code样本进行异常检测任务,评估模型在识别打印缺陷方面的表现。此外,数据集还提供了多项选择题,便于自动化评分和大规模评估。
背景与挑战
背景概述
FDM-Bench数据集由伊利诺伊大学厄巴纳-香槟分校、罗格斯大学和密歇根大学等机构的研究人员于2024年创建,旨在评估大型语言模型(LLMs)在增材制造(AM)任务中的表现。FDM(熔融沉积建模)作为一种广泛应用的增材制造技术,因其灵活性和成本效益在医疗、航空航天等领域得到广泛应用。然而,FDM的设计、规划和生产过程涉及复杂的参数管理,且容易出现打印缺陷,这使得非专业人士难以参与其中。FDM-Bench通过包含不同经验水平的用户查询和G代码样本,提供了一个全面的评估框架,旨在推动LLMs在FDM领域的应用,提升打印质量和用户体验。
当前挑战
FDM-Bench数据集面临的挑战主要集中在两个方面:一是解决FDM领域中的复杂问题,如参数调优、缺陷诊断和缺陷修复,这些问题需要跨学科的专业知识;二是构建过程中遇到的挑战,包括生成多样化的G代码样本和设计涵盖不同用户经验水平的查询问题。此外,评估LLMs在G代码异常检测和用户查询响应中的表现也面临技术难题,如模型对G代码语法的理解能力、参数间复杂关系的解析能力,以及如何根据用户经验水平提供适切的回答。这些挑战凸显了FDM-Bench在推动LLMs在增材制造领域应用中的重要性和复杂性。
常用场景
经典使用场景
FDM-Bench数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在熔融沉积建模(FDM)任务中的表现。该数据集通过包含不同经验水平的用户查询和代表多种异常的G-code样本,为模型在FDM领域的应用提供了全面的评估框架。具体而言,FDM-Bench通过G-code异常检测和用户查询响应两个核心任务,评估模型在识别打印缺陷和提供技术支持方面的能力。
实际应用
FDM-Bench数据集在实际应用中具有广泛的应用场景,特别是在3D打印行业中。通过评估LLMs在G-code异常检测和用户查询响应中的表现,该数据集为制造商和工程师提供了优化打印参数、减少打印缺陷的工具。此外,FDM-Bench还可以帮助初学者和专业用户快速诊断和解决打印问题,从而提高生产效率和产品质量。
衍生相关工作
FDM-Bench数据集的推出催生了一系列相关研究工作,特别是在LLMs在增材制造(AM)领域的应用。例如,研究者们开始探索如何通过微调(fine-tuning)和检索增强(retrieval-augmented)方法进一步提升LLMs在FDM任务中的表现。此外,FDM-Bench还为未来扩展到其他AM技术(如选择性激光烧结和立体光刻)提供了基础,推动了AM领域中LLMs的广泛应用。
以上内容由遇见数据集搜集并总结生成



