lukens_phm2025
收藏github2026-02-10 更新2026-02-12 收录
下载链接:
https://github.com/sarahlukens/lukens_phm2025
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含一个合成的300个操作员观察数据集,用于LMTV(轻型中型战术车辆),每个观察都标有相应的真实故障代码。数据集使用OpenAI GPT-5生成,并基于LMTV技术手册,旨在用于故障诊断方法的研究和基准测试。
This repository contains a synthetic dataset of 300 operator observations for Light and Medium Tactical Vehicles (LMTV). Each observation is labeled with its corresponding authentic fault code. Generated using OpenAI GPT-5 and based on LMTV technical manuals, this dataset is intended for research and benchmarking of fault diagnosis methods.
创建时间:
2026-02-10
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:lukens_phm2025
- 数据集来源:该数据集用于支持2025年PHM Society的论文《An Evaluation Framework for Fault Diagnosis Using Technical Manuals in Retrieval-Augmented Large Language Models》。
- 论文链接:https://doi.org/10.36001/phmconf.2025.v17i1.4549
- 数据文件位置:
data/lukens_phm2025_input_data.csv
数据集内容与规模
- 数据规模:包含300条合成操作员观察记录。
- 数据对象:针对LMTV(轻型中型战术车辆)。
- 数据字段:
- 合成操作员观察文本。
- 对应的真实故障代码(ground-truth fault code)。
数据集生成方法
- 数据性质:完全合成,不包含任何真实操作员数据。
- 生成工具:使用OpenAI GPT-5生成。
- 生成依据:
- 基于官方LMTV技术手册。
- 基于论文中描述的故障代码结构。
- 标签说明:真实标签反映模拟的故障条件,而非现场测量结果。
数据集用途
- 适用场景:
- 测试故障诊断流程。
- 评估大语言模型对技术手册的推理能力。
- 对检索与分类架构进行基准测试。
- 用于与PHM 2025研究相关的教育或可重复性目的。
- 不适用场景:
- 用于实际维护决策。
- 用于安全关键型部署。
- 未经进一步验证即用于训练生产诊断系统。
相关资源
- 公开获取论文:https://papers.phmsociety.org/index.php/phmconf/article/view/4549
- 总结性博客文章:https://www.linkedin.com/pulse/from-demo-deployment-scaling-evaluating-llms-fault-diagnosis-lukens-qcw5e/
引用格式
若使用本数据集,请引用:
Lukens, S., Bishof, M., Siddiqui, N., & West, D. (2025). An Evaluation Framework for Fault Diagnosis Using Technical Manuals in Retrieval-Augmented Large Language Models. Annual Conference of the PHM Society, 17(1). https://doi.org/10.36001/phmconf.2025.v17i1.4549
搜集汇总
数据集介绍

构建方式
在故障诊断与预测健康管理领域,构建高质量数据集对于评估先进人工智能方法至关重要。lukens_phm2025数据集通过合成方式生成,其构建过程严格遵循学术研究规范。研究团队以轻型中型战术车辆的官方技术手册为知识蓝本,利用OpenAI GPT-5大型语言模型,精心设计了生成提示模板,模拟了300条操作员观察记录。每条记录均对应一个预先定义的真实故障代码,确保了数据在语义上与真实故障场景的一致性,同时完全避免了真实操作数据的隐私与安全问题,为后续研究提供了纯净且结构化的基准数据。
特点
该数据集的核心特点体现在其高度专业化的设计目标与严谨的合成逻辑上。数据集专注于轻型中型战术车辆的故障诊断场景,包含300条人工生成的观察文本及其对应的真实故障标签,形成了一个自洽的评估单元。其文本内容完全合成,不涉及任何真实场测数据,这既保障了数据使用的伦理安全性,也使得数据集能够专注于方法论的验证。数据集的构造紧密围绕检索增强生成、大语言模型辅助排故等前沿技术评估需求,为比较不同诊断管线的性能提供了标准化的输入与真值参照。
使用方法
该数据集主要服务于故障诊断领域的方法学研究与性能评测。使用者可加载提供的CSV文件,其中包含合成观察文本与故障代码标签,将其作为下游任务的输入。典型应用场景包括构建和测试检索增强生成系统,评估大语言模型在技术文档上的推理能力,以及对融合检索与分类的架构进行基准测试。研究人员应参考原论文中详述的提示工程、检索流程及评估框架,以复现或扩展相关研究。需要明确的是,该数据集旨在学术探索与可复现性研究,不应用于实际的维护决策或安全关键系统的部署。
背景与挑战
背景概述
在预测与健康管理领域,如何利用大型语言模型结合领域专业知识进行自动化故障诊断,已成为提升复杂装备运维效率的前沿课题。lukens_phm2025数据集应运而生,由S. Lukens、M. Bishof、N. Siddiqui和D. West等研究人员于2025年创建,旨在支持其发表于PHM Society年度会议的研究。该数据集的核心研究问题聚焦于评估基于检索增强生成技术的故障诊断框架,通过合成轻中型战术车辆的故障观测文本与对应故障代码,为验证大语言模型在技术手册理解与故障推理方面的能力提供了标准化基准,对推动智能诊断方法的可复现性与评估科学化具有显著影响力。
当前挑战
该数据集致力于解决故障诊断领域的一个关键挑战:如何让大语言模型有效理解并应用结构化技术文档中的专业知识,以完成从自然语言描述到精确故障代码的映射。这一过程面临模型对专业术语的语义理解、多步骤逻辑推理的准确性,以及检索信息的可靠性等多重考验。在构建过程中,研究人员亦需应对合成数据的真实性模拟挑战,即如何通过GPT-5等生成模型,在严格遵循LMTV技术手册规范的前提下,创造出既符合现实故障场景分布、又避免引入真实敏感数据的仿真观测文本,确保数据既具备研究效用,又符合伦理与安全约束。
常用场景
经典使用场景
在预测与健康管理领域,lukens_phm2025数据集为评估基于技术手册的故障诊断方法提供了标准化的测试平台。该数据集包含300条由GPT-5生成的轻型中型战术车辆操作员观察文本,每条文本均标注了真实故障代码,专为验证检索增强生成架构在解析复杂技术文档与自然语言描述方面的效能而设计。研究人员可借此模拟真实维护场景中从故障现象到代码映射的推理过程,为算法比较与模型优化奠定基础。
解决学术问题
该数据集致力于解决故障诊断研究中技术手册信息利用效率低下的核心难题。通过提供结构化的合成观察数据与对应故障代码,它使学者能够系统评估大型语言模型在检索增强框架下理解专业术语、关联多源信息及进行精准分类的能力。这不仅推动了智能化诊断工具在可解释性与可靠性方面的理论进展,也为跨模态知识融合研究提供了可重复的基准,显著提升了该领域方法验证的严谨性与可比性。
衍生相关工作
围绕该数据集衍生的经典研究主要集中于检索增强生成在专业领域的适配与优化。例如,后续工作可能探索如何将技术手册中的图表、流程图等非文本信息融入检索过程,或开发针对特定故障模式的细粒度分类模型。此外,基于其评估框架,学者们进一步研究了大型语言模型在少样本学习、领域适应以及诊断决策不确定性量化方面的表现,这些工作共同推动了预测与健康管理领域向更自动化、可信赖的智能维护范式演进。
以上内容由遇见数据集搜集并总结生成



