FailureSensorIQ

Name: FailureSensorIQ
Creator: IBM TJ Watson Research Center
Published: 2025-06-04 02:05:10
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/IBM/FailureSensorIQ

下载链接

链接失效反馈

官方服务：

资源简介：

FailureSensorIQ 是一个多选择问答（MCQA）数据集，旨在评估大型语言模型（LLMs）理解和推理工业4.0中的复杂、特定领域的场景的能力。数据集包含来自ISO文档的8296个问题，涵盖10种工业资产，涉及故障模式和传感器数据之间的关系。该数据集通过分析故障模式、传感器数据及其间关系，帮助模型学习工业资产的关键特征和模式。数据集设计用于促进LLMs在预测维护、传感器故障检测和资产管理等领域的应用。

FailureSensorIQ is a multiple-choice question answering (MCQA) dataset designed to evaluate the ability of large language models (LLMs) to understand and reason about complex, domain-specific scenarios in Industry 4.0. The dataset contains 8296 questions sourced from ISO documents, covering 10 types of industrial assets and focusing on the relationships between failure modes and sensor data. By analyzing failure modes, sensor data and their interrelationships, this dataset helps models learn the key features and patterns of industrial assets. The dataset is designed to facilitate the application of LLMs in fields such as predictive maintenance, sensor fault detection and asset management.

提供机构：

IBM TJ Watson Research Center

创建时间：

2025-06-04

原始信息汇总

FailureSensorIQ 数据集概述

1. 数据集简介

任务类型: 多选问答(MCQA)
领域: 工业资产
核心目标: 探索传感器与故障模式之间的关系，评估大语言模型在工业环境中的推理能力
理论基础: 结合可靠性工程理论(故障模式)与实际传感器数据
数据来源: ISO标准文档

2. 数据集构成

总问题量: 8,296个
- 单正确答案问题: 2,667个
- 多正确答案问题: 5,629个
问题格式:
- 行中心(FM2Sensor)
- 列中心(Sensor2FM)
- 选择vs排除格式

资产分布

10类工业资产:
- 电动机(234), 蒸汽轮机(171), 航空燃气轮机(336)
- 工业燃气轮机(240), 泵(152), 压缩机(220)
- 往复式内燃机(336), 发电机(234), 风机(200), 电力变压器(544)

选项分布

选项A:752, B:729, C:491, D:408, E:208
问题选项数量分布:
- 2选项:487, 3选项:266, 4选项:389, 5选项:1525

3. 评估方法

PertEval工具包:
- 简单扰动(SimplePert): 选项重排序/格式修改
- 复杂扰动(ComplexPert): 使用LLaMA-3-70b修改问题内容
不确定性量化:
- 采用LLM Uncertainty Bench框架
- 基于资产类型划分校准集和测试集

4. 扩展资源

验证集: 50个专家精选MCQA问题
特征选择实验: 包含3个Kaggle数据集实验和LLMFeatureSelector工具
硬件要求: 评估流程测试环境为A100 80GB GPU

5. 数据获取

Hugging Face加载: python from datasets import load_dataset load_dataset(cc4718/FailureSensorIQ, data_files=all.jsonl)
评估流程安装: bash git clone --recurse-submodules https://github.com/IBM/FailureSensorIQ.git cd FailureSensorIQ pip install -r requirements.txt python run_eval.py <hf-model-id> full

相关资源

论文: https://arxiv.org/abs/2506.03278
排行榜: https://huggingface.co/spaces/cc4718/FailureSensorIQ

搜集汇总

数据集介绍

构建方式

FailureSensorIQ数据集的构建基于工业4.0背景下传感器与故障模式之间复杂关系的多选问答任务需求。研究团队通过自动化流程从ISO文档和专家知识中提取资产、故障模式及传感器之间的映射关系，生成了8,296个问题，涵盖10种工业资产。问题分为单正确答案和多正确答案两种形式，并采用扰动和复杂性分析增强数据集的鲁棒性。构建过程中未使用大型语言模型生成数据，确保了问题的专业性和准确性。

特点

FailureSensorIQ数据集以其高度专业化和复杂性著称，专注于工业资产中传感器与故障模式之间的多维度推理任务。该数据集包含2,667个单正确答案问题和5,629个多正确答案问题，通过扰动-不确定性-复杂性分析框架揭示了模型在知识不变性测试中的脆弱性。其独特之处在于融合了行中心（FM2Sensor）和列中心（Sensor2FM）两种问题范式，并设计了选择与排除相结合的问答形式，充分模拟工业诊断场景中先验知识的应用挑战。

使用方法

该数据集主要用于评估大型语言模型在工业诊断任务中的推理能力，支持闭卷和开卷两种测试模式。研究者可通过Hugging Face排行榜比较模型性能，或结合外部知识库构建ReAct智能体进行增强评估。使用建议包括：采用链式思维提示策略提升中等规模模型表现；关注模型在扰动数据下的性能一致性；利用资产特定知识差距分析指导领域适应。此外，配套工具LLMFeatureSelector可将模型推理能力应用于实际工业特征选择任务。

背景与挑战

背景概述

FailureSensorIQ是由IBM TJ Watson研究中心于2025年推出的多选问答数据集，旨在评估大型语言模型在工业4.0领域中对传感器与故障模式复杂关系的理解能力。该数据集基于ISO文档和专家知识构建，包含10类工业资产的8,296个问题，涵盖单答案和多答案两种形式。其创新性在于将传统的数据驱动方法与基于领域知识的推理相结合，为预测性维护、故障诊断等工业应用提供了新的评估基准。该数据集通过严格的扰动-不确定性-复杂度分析框架，揭示了当前语言模型在工业领域知识推理中的局限性，推动了领域专用语言模型的发展。

当前挑战

FailureSensorIQ面临的核心挑战体现在两方面：领域问题层面，工业资产故障诊断需要模型理解传感器数据与故障模式间的非线性关系，而现有模型在复杂扰动下准确率平均下降5-20%，且多答案问题的精确匹配率不足21%；构建过程层面，数据集需从非结构化的ISO文档中提取专家知识，并转化为可量化的问答对，同时要确保问题在保留领域复杂性的前提下具备明确的评估标准。此外，模型表现易受知识覆盖不均衡影响，例如蒸汽轮机等低文献覆盖资产的平均准确率（47.95%）显著低于文献丰富资产（70.83%），突显工业知识体系化表达的挑战。

常用场景

经典使用场景

在工业4.0背景下，FailureSensorIQ数据集通过多选问答形式评估大型语言模型在复杂工业场景中的推理能力。该数据集聚焦于故障模式与传感器数据之间的关联性分析，为预测性维护和故障诊断提供了标准化测试平台。其经典应用场景包括模拟工程师基于传感器数据识别设备故障根源的过程，例如通过温度、压力传感器异常判断涡轮机轴承磨损或齿轮缺陷。

实际应用

实际应用中，该数据集可直接指导智能运维系统的开发。例如在发电厂涡轮机监测场景中，基于FM2Sensor任务构建的模型能自动推荐关键监测传感器（如振动传感器检测不平衡故障），缩短传统专家手册查阅耗时。IBM团队已将其集成至特征选择工具LLMFeatureSelector，在空压机故障预测案例中实现86.88%的关键特征相关性识别，显著降低设备停机风险。

衍生相关工作

该数据集催生了多项衍生研究：1) 基于Perturbation-Uncertainty-Complexity框架的模型鲁棒性评估工具链；2) 工业知识增强的CoT提示策略（如专家角色扮演提示使Llama-3-70B准确率提升9.47%）；3) 检索增强型工业问答代理系统研究，揭示了传统ReAct方法在专业领域的局限性（准确率下降12.3%）。相关成果推动了工业知识图谱与LLMs融合的新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集