AssetOpsBench

Name: AssetOpsBench
Creator: IBM Research - Yorktown & Ireland
Published: 2025-06-04 18:57:35
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/IBM/AssetOpsBench

下载链接

链接失效反馈

官方服务：

资源简介：

AssetOpsBench是一个为工业资产操作和维护中AI代理进行基准测试的框架和环境，旨在开发、协调和评估针对工业4.0应用的特定领域的代理。该数据集包含140多个由人类编写的自然语言查询，涵盖传感器查询映射、异常解释和故障诊断等任务，以及一个基于CouchDB的物联网遥测系统和多源数据集的模拟工业环境，用于端到端的多代理工作流程基准测试。数据集的应用领域包括异常检测、维护调度、故障诊断等，旨在解决工业应用中的数据模式多样性、业务对象复杂性和任务协作等挑战。

AssetOpsBench is a framework and environment for benchmarking AI agents in industrial asset operation and maintenance, aiming to develop, coordinate and evaluate domain-specific agents for Industry 4.0 applications. This dataset contains over 140 human-written natural language queries covering tasks such as sensor query mapping, anomaly explanation, fault diagnosis and more, as well as a simulated industrial environment based on a CouchDB-powered IoT telemetry system and multi-source datasets, which is used for end-to-end multi-agent workflow benchmarking. Its application fields include anomaly detection, maintenance scheduling, fault diagnosis and other related scenarios, and it is designed to address key challenges in industrial applications such as diverse data patterns, complex business objects and task collaboration.

提供机构：

IBM Research - Yorktown & Ireland

创建时间：

2025-06-04

原始信息汇总

AssetOpsBench 数据集概述

数据集简介

名称: AssetOpsBench
领域: 工业资产运维任务自动化
特点: 提供统一框架和环境，用于开发、编排和评估领域特定AI代理

数据集内容

场景数量: 140+
场景类型:
- 单领域任务 (如: "列出MAIN站点Chiller 6的所有传感器")
- 端到端多步骤任务 (如: "基于MAIN站点数据预测2020-04-27周Chiller 9 Condenser Water Flow的预测值")
场景领域:
- IoT数据检索 (IoT)
- 故障模式和传感器关系发现 (FSMR)
- 时间序列异常检测 (TSFM)
- 工单生成 (WO)

AI代理与多代理框架

领域特定代理:
- IoT代理: 提供get_sites, get_history, get_assets, get_sensors等工具
- FMSR代理: 提供get_sensors, get_failure_modes, get_failure_sensor_mapping工具
- TSFM代理: 提供forecasting, timeseries_anomaly_detection等工具
- WO代理: 提供generate_word_order工具
多代理编排框架:
- MetaAgent: 基于reAct的单代理工具代理
- AgentHive: 计划执行顺序工作流

评估与结果

评估模型: 7种大型语言模型
评估方法: 使用LLM judge (Llama-4-Maverick-17B)在6维标准上评估
结果展示: 包含MetaAgent的评估结果

数据获取与使用

场景数据: https://github.com/IBM/AssetOpsBench/tree/main/scenarios
测试数据集: src/assetopsbench/sample_data/chiller6_june2020_sensordata_couchdb.json
数据库要求: 需安装CouchDB (https://couchdb.apache.org/#download)

运行说明

MetaAgent运行脚本: https://github.com/IBM/AssetOpsBench/tree/main/src/meta_agent/tests
AgentHive运行脚本: https://github.com/IBM/AssetOpsBench/tree/main/src/agent_hive/tests

搜集汇总

数据集介绍

构建方式

AssetOpsBench数据集通过整合工业资产运营中的多源异构数据构建而成，涵盖时间序列传感器数据、FMEA故障记录、工单历史等六类核心数据模态。研究团队采用专家标注与真实工业场景模拟相结合的方法，构建了包含140余个自然语言查询的任务场景库，每个场景均基于资产全生命周期管理流程设计，并通过CouchDB支持的物联网遥测系统实现环境仿真。数据集构建过程严格遵循工业标准，确保了数据语义的一致性和任务的可复现性。

特点

该数据集的核心特征体现在三个方面：多模态工业数据的深度整合，包含230万传感器数据点、53项FMEA故障条目和4200条工单记录；任务场景的领域特异性，覆盖异常检测、故障诊断、维护计划等典型工业工作流；以及评估框架的系统性，提供包含任务完整性、检索准确性等六维度的自动化评估体系。特别值得注意的是数据集对时间序列模态的侧重，解决了现有智能体基准在工业时序数据分析方面的不足。

使用方法

使用AssetOpsBench需遵循模块化工作流程：首先通过IoT Agent获取资产传感器数据，由TSFM Agent进行时序分析与异常检测，再通过FMSR Agent关联故障模式与传感器特征，最终由WO Agent生成维护决策。评估时可采用工具即代理(Tool-as-Agent)或计划执行(Plan-Execute)两种范式，通过标准化接口调用各功能代理。数据集提供Croissant格式的元数据描述，支持端到端多智能体工作流的基准测试，用户可根据leaderboard指标对比不同AI代理在工业自动化任务中的表现。

背景与挑战

背景概述

AssetOpsBench是由IBM研究院于2025年推出的工业资产运维自动化基准测试框架，旨在解决工业4.0环境下复杂资产全生命周期管理的智能化挑战。该数据集整合了多模态工业数据（包括230万传感器数据点、53种故障模式记录和4200条工单记录），首次构建了面向工业场景的AI智能体评估体系。其核心创新在于通过领域专用智能体（如物联网代理、故障模式传感器映射代理等）的协同机制，实现从状态监控到维护决策的端到端自动化，填补了传统AI方法在工业流程整合方面的空白。

当前挑战

AssetOpsBench面临双重挑战：领域层面需解决工业数据异构性（如时序传感器、文本工单、图像日志的多模态融合）与业务对象复杂性（如故障模式库、资产层级关系的语义理解）；构建层面存在多智能体协作难题（包括工具调用序列优化、跨模态推理验证）和工业语言泛化问题（操作人员自然语言查询与系统本体论的对齐）。实验表明，即使顶尖模型如GPT-4.1在工单理解等结构化任务中准确率不足65%，且新兴故障模式发现率高达35%，凸显工业场景智能体开发的特殊性。

常用场景

经典使用场景

AssetOpsBench作为工业资产运维领域首个专为AI智能体设计的基准测试框架，其经典使用场景聚焦于端到端的工业资产全生命周期管理任务自动化。在模拟的真实工业环境中，多模态智能体需协同完成传感器数据查询（IoT Agent）、故障模式映射（FMSR Agent）、时序分析（TSFM Agent）和工单生成（WO Agent）等复合任务。例如针对'冷水机组效率下降'的查询，智能体需跨模态关联实时传感器数据、历史故障库和运维记录，最终生成包含根因分析和维护建议的决策链。

衍生相关工作

基于AssetOpsBench衍生的经典工作包括：IBM研究院开发的Granite时间序列基础模型，专门优化工业设备异常检测；MIT提出的MAST多智能体失效分类框架，扩展了14种工业场景特有的故障模式；NeurIPS 2025最佳论文《工业智能体协同推理》则借鉴其工具调用范式，构建了支持动态工具组合的通用智能体架构。此外，该数据集还催生了ITBench、AIOpsLab等垂直领域基准测试的迭代。

数据集最近研究