FactoryBench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/FactoryBench/FactoryBench

下载链接

链接失效反馈

官方服务：

资源简介：

FactoryBench是一个用于评估时间序列模型和大型语言模型在工业机器人遥测数据上进行机器行为推理的基准数据集。该数据集围绕Pearl因果层次结构的四个级别组织问答对：状态识别（L1）、干预预测（L2）、反事实推理（L3）和工程决策（L4）。数据集包含70,918个问答对，涵盖五种答案格式（单选、多选、排序、数值和自由形式）。基础数据来自UR3协作机器人和KUKA KR10工业机械臂的密集多变量遥测数据（125 Hz和83 Hz），并补充了AURSAD和voraus-AD开源数据集。数据集还包括一个结构化知识图谱，用于支持问答项的推理。问答对分布在训练集、验证集和测试集中，具体数量为：L1（15,321）、L2（40,226）、L3（2,939）和L4（12,432）。每个问答项包含唯一标识符、问题模板、答案格式、隐藏字段、问题文本、选项、正确答案等字段。数据集适用于工业机器人场景中的结构化问答推理任务评估，但存在领域特定性和故障注入机制的限制。

FactoryBench is a benchmark dataset for evaluating time-series models and large language models on machine behavior reasoning with industrial robot telemetry data. The dataset organizes question-answer pairs around four levels of Pearls causal hierarchy: state identification (L1), intervention prediction (L2), counterfactual reasoning (L3), and engineering decision-making (L4). The dataset contains 70,918 question-answer pairs, covering five answer formats (single-choice, multiple-choice, ranking, numerical, and free-form). The underlying data comes from dense multivariate telemetry data (125 Hz and 83 Hz) of UR3 collaborative robots and KUKA KR10 industrial robotic arms, supplemented with AURSAD and voraus-AD open-source datasets. The dataset also includes a structured knowledge graph to support reasoning for question-answer items. The question-answer pairs are distributed across training, validation, and test sets with the following counts: L1 (15,321), L2 (40,226), L3 (2,939), and L4 (12,432). Each question-answer item contains fields such as a unique identifier, question template, answer format, hidden fields, question text, options, and correct answer. The dataset is suitable for evaluating structured question-answering reasoning tasks in industrial robot scenarios but has limitations in domain specificity and fault injection mechanisms.

创建时间：

2026-05-04

原始信息汇总

FactoryBench 数据集概述

FactoryBench 是一个用于评估机器行为推理能力的基准测试数据集，主要针对时间序列模型和大语言模型在工业机器人遥测数据上的表现。

核心特点

总规模：包含 70,918个问答对，分布在训练集、验证集和测试集中。
问答层级：基于 Pearl 因果层次模型的四个层级组织：
- L1 — 状态：从原始信号中识别运行状态
- L2 — 干预：预测干预措施的效果
- L3 — 反事实：推理替代历史情景
- L4 — 决策：工程决策（故障排查与优化）
答案格式：五种格式，包括单选题、多选题、排序、张量/数值、自由文本（由 LLM 投票协议评判）。

数据来源

数据基于 FactoryWave 数据集构建，这是一个密集的多变量遥测数据集，包含：

UR3 协作机器人（125 Hz 采样）
KUKA KR10 工业机械臂（83 Hz 采样）
AURSAD 和 voraus-AD 开源数据集

系统性地注入了 27种原子故障机制，涵盖拾取-放置、拧螺丝和销孔装配任务。

仓库结构

FactoryBench/ ├── factorybench_qa/ # 问答对 │ ├── level_1/{train,validation,test}.jsonl │ ├── level_2/{train,validation,test}.jsonl │ ├── level_3/{train,validation,test}.jsonl │ └── level_4/{train,validation,test}.jsonl ├── knowledge_graph/ # 组合知识图谱 │ ├── knowledge_graph.json │ └── SCHEMA.md └── factorywave/ # 底层遥测数据与元数据 ├── episodes.parquet # 9,728个episode元数据 ├── flow.parquet # 任务流程定义 ├── kuka_signals.parquet # KUKA KR10信号（约83 Hz，1,428 episodes） ├── ur_signals.parquet # UR3信号（约125 Hz，3,076 episodes） ├── ur_signals_10hz.parquet # UR3信号（10 Hz，3,984 episodes） └── ur_screwdriver_signals.parquet # UR3螺丝刀子集（约125 Hz，1,240 episodes）

问答对数量统计

层级	训练集	验证集	测试集	总计
L1	12,674	1,338	1,309	15,321
L2	33,311	3,428	3,487	40,226
L3	2,353	265	321	2,939
L4	9,949	1,251	1,232	12,432
总计	58,287	6,282	6,349	70,918

问答对字段说明

每个问答对包含以下字段：

id：唯一标识符
level：因果层级（1-4）
template_id：问题模板ID
template_type：答案格式类型
hides：向模型隐藏的通道/字段
question：自然语言问题
options：答案选项（仅限选择题/排序模板）
answer：真实答案
root_cause：潜在故障/原因（仅L4）
acceptance_bounds：数值答案的容差范围
provenance：来源信息
context：暴露给模型的时间序列和元数据上下文

预期用途与限制

预期用途：评估LLM和时间序列模型在结构化工业问答推理任务（状态、干预、反事实、决策）上的表现。

局限性：

领域特定，局限于工厂和工业机器人场景
故障为原子化，来自27种物理注入机制的封闭目录
层级2和层级3之间存在规模不平衡

不适用场景：不适用于安全关键、医疗、法律或金融决策系统。

许可证

采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

FactoryBench基于真实工业机器人遥测数据构建，涵盖UR3协作机器人（125 Hz）与KUKA KR10工业机械臂（83 Hz）的高密度多变量时间序列，并融合AURSAD与voraus-AD两个开源数据集。通过系统化注入27种原子故障机制，在拾取-放置、拧螺丝及销孔装配等典型工业任务中采集遥测数据。数据组织依据Pearl因果层级理论，将70,918个问答对划分为状态识别（L1）、干预预测（L2）、反事实推理（L3）与工程决策（L4）四个层次，每个层次均配备独立的训练集、验证集与测试集。

特点

该基准测试的核心特色在于其多维度的因果推理能力评估架构。答案格式涵盖单/多选选择题、排序题、数值张量及自由文本五种形式，其中自由文本答案通过LLM投票协议进行评判。配套的知识图谱作为结构化世界模型，详尽记录了机器规格、故障根因目录、异常严重性排名及错误处理协议映射，为L4层次的排查问题提供了完整可追溯的参考答案。数据集规模达70,918个样本，但各层级间存在数量不平衡，L2层级占比超过56%。

使用方法

用户可通过HuggingFace Datasets库加载各层级JSONL格式的问答数据，并支持按数据文件路径指定具体层级与拆分。底层遥测数据以Parquet格式存储，可通过Pandas直接读取，包括UR3和KUKA机器人的原始信号及降采样版本。知识图谱以JSON格式提供，支持通过HTTP请求直接加载，便于查询机器规格和故障映射关系。使用时应注意到该数据集仅适用于工厂机器人领域的结构化推理任务，不建议直接应用于医疗、金融等安全关键领域。

背景与挑战

背景概述

在工业机器人智能化进程中，机器理解能力（machine-behavior reasoning）的评估始终缺乏系统化基准。FactoryBench数据集于2026年由匿名研究团队创建，旨在构建一个融合时间序列分析与因果推理的工业机器人遥测数据理解评测平台。该数据集基于FactoryWave高密度多变量遥测数据集，涵盖UR3协作机器人（125 Hz）与KUKA KR10工业臂（83 Hz）的真实运行信号，并整合了AURSAD与voraus-AD两个开源数据集。FactoryBench的核心创新在于将问答任务结构化组织于Pearl因果层次的四个级别——状态识别、干预预测、反事实推理与工程决策，总计包含70,918个问答对及五类答案格式。这一设计使数据集能够系统性地评估当前大语言模型与时间序列模型在工业场景中的因果推理与故障诊断能力，对推动工业智能化评估标准的建立具有重要学术与应用价值。

当前挑战

FactoryBench所应对的领域核心挑战在于工业机器人遥测数据的机器理解评估兼具多层级推理复杂性与数据异构性。一方面，现有模型普遍缺乏对机器行为在观察、干预与反事实层级上的结构化因果推理能力，尤其在高维时序信号与工程本体知识融合方面存在显著短板；另一方面，真实工业场景中的系统性故障注入与多任务操作演变使得数据分布呈现非平稳性与标签稀疏性。在构建过程中，数据集面临着遥测多源采样率异质（83 Hz至125 Hz）引发的对齐困难、27种原子故障机制注入与自然故障模式间的表征偏差、以及各因果层次问答对数量分布不均（如L2达40,226对而L3仅2,939对）所导致的学习偏差风险。此外，工程决策层（L4）的答案生成需依赖结构化知识图谱中根因与操作协议的精确映射，进一步增加了现实场景下的泛化挑战。

常用场景

经典使用场景

在工业智能与机器人学交叉领域，FactoryBench被设计为评估时间序列模型与大型语言模型在工业机器人遥测数据上行为推理能力的标杆。数据集的问答对严格遵循Pearl因果层级框架，涵盖从原始信号中识别操作状态、预测干预效果、反事实推理到工程决策的四个递进层次。其经典用法聚焦于通过结构化问答任务，系统性地检验模型是否具备理解机器动态行为、推断因果链条以及给出故障诊断与优化方案的能力，为工业级因果推理研究提供了标准化测试平台。

衍生相关工作

FactoryBench的诞生催生了若干衍生研究方向与工具链。其中，公开的知识图谱结构化描述了机器能力、故障目录与错误处理协议，成为开发工业级因果搜索引擎和可解释AI诊断系统的蓝本。基于该数据集，研究者已探索将大语言模型与专用时序编码器融合的混合架构，以协同处理自然语言问答与高维遥测信号。此外，其反事实推理子集激发了虚拟传感器仿真和数字孪生验证方面的工作，而层级化问题设计则为工业NLP与时序预测联合建模提供了方法论借鉴。

数据集最近研究