five

FactoryNet

收藏
arXiv2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/factorynet/factorynet
下载链接
链接失效反馈
官方服务:
资源简介:
FactoryNet是由开罗大学、苏黎世联邦理工学院等机构联合创建的首个面向工业时间序列基础模型的大规模预训练数据集。该数据集包含约23000个端到端任务执行序列,涵盖5100万个数据点,整合了真实实验室记录与合成数据,并采用创新的设定点-作用力-反馈-上下文(S-E-F-C)信号分类法统一多模态工业信号。数据集构建过程通过程序化映射将300多个异构数据列标准化为四类控制理论角色,并利用NVIDIA Isaac Sim进行合成数据生成与领域随机化。该数据集主要应用于工业异常检测、跨设备动态迁移学习及工业基础模型训练,旨在解决工业人工智能领域缺乏统一、结构化时间序列数据基板的核心瓶颈。

FactoryNet is the first large-scale pre-training dataset for industrial time series foundation models, jointly constructed by institutions including Cairo University and ETH Zurich, as well as other partner organizations. This dataset contains approximately 23,000 end-to-end task execution sequences, totaling 51 million data points. It integrates real laboratory records and synthetic data, and unifies multimodal industrial signals through an innovative setpoint-force-feedback-context (S-E-F-C) signal taxonomy. During the dataset construction pipeline, over 300 heterogeneous data columns are standardized into four control theory-defined roles via programmatic mapping, while synthetic data generation and domain randomization are implemented using NVIDIA Isaac Sim. This dataset is primarily applied to industrial anomaly detection, cross-device dynamic transfer learning, and industrial foundation model training, with the goal of addressing the core bottleneck of the lack of unified, structured time series data substrates in the industrial artificial intelligence field.
提供机构:
开罗大学; 福吉斯公司; 苏黎世联邦理工学院; 帝国理工学院; 加州大学伯克利分校; 维也纳大学
创建时间:
2026-05-10
原始信息汇总

FactoryNet 数据集概述

FactoryNet 是一个面向工业时序基础模型的大规模统一数据集,旨在推动机器人制造领域的时序建模、异常检测与 Sim2Real 差距分析研究。

数据集规模与构成

  • 覆盖不同机器人形态(UR3、KUKA)和专用末端执行器(螺丝刀、夹爪)
  • 包含数万个仿真反事实样本
  • 提供高度标准化、高频的遥测数据

数据目录结构

  • data/:海量分块 Parquet 文件,遵循 S-E-F-C 统一格式

    • aursad_*.parquetcnc_*.parquetvoraus_*.parquet:已有的结构化数据集
    • factorywave_*.parquet:真实 UR3 和 KUKA 遥测数据(含专用螺丝刀扭矩数据和任务元数据)
    • simulations_baseline_*.parquet:在 Isaac Sim 4.5.0 中生成的 10,000+ 基线拾放任务
    • simulations_counterfactual_*.parquet:用于因果和异常建模的匹配反事实任务
  • artifacts/:Sim2Real 基准测试工具包

    • real_csv/sim_csv/:真实与 Isaac Sim 任务配对的 CSV 文件
    • pick_configs/:每个任务的 JSON 配置文件(驱动仿真参数)
    • gap_reports/summary/:汇总的差距分析、清单及任务级报告

S-E-F-C 通用格式

所有遥测数据均映射到统一的 Setpoint-Effort-Feedback-Context 格式:

  • Setpoint(设定值):指令状态(位置、速度、加速度、目标扭矩)
  • Effort(作用力):硬件物理输出(电流、电压、力、扭矩)
  • Feedback(反馈值):测量的物理状态(实际位置、速度)
  • Context(上下文):元数据和离散状态(异常标签、任务阶段、硬件模式、执行时间)

注:专用螺丝刀遥测数据(如拧紧状态、实测杆扭矩)已集成到工具特定的 Effort 和 Context 列中。

Sim2Real 差距分析(UR3 拾放任务)

任务配对与时间轴

  • 真实与仿真任务按文件名严格配对(real_csv/<uuid>.csvsim_csv/<uuid>.csv
  • 按时间划分不同负载段进行动态对齐验证:
    • 0.6 kg:开始 → 0ab540a6-7210-4531-b2ed-6a04c7b90ff1
    • 0.3 kg:之后 → 29312353-3555-4eba-b2fb-3e2495e89782
    • 1.2 kg:之后 → 640c65a7-2aee-4b58-94de-334f37832e14

差距评估指标

  • Joint RMSE(度):关节误差
  • TCP 位置 RMSE(毫米)/ EE L2 RMS(毫米):欧几里得位置误差
  • TCP 旋转向量 RMSE(毫弧度):旋转方向差距
  • W1 作用力(安培):基于 current 的 Wasserstein-1 距离,衡量作用力对齐程度

(对齐方法:按时间排序,按任务阶段分割,将时间帧线性重采样至 [0, 1] 后计算距离。)

适用范围与限制

该 Sim2Real 工具包严格用于 运动学一致性分析作用力代理比较不涉及 接触精确动力学验证、视觉域真实性或执行器扭矩物理一致性的断言。

搜集汇总
数据集介绍
main_image_url
构建方式
在工业人工智能领域,时间序列数据是理解复杂机电系统动态行为的关键,然而现有数据集往往规模有限且缺乏对控制回路的显式建模。FactoryNet应运而生,作为首个面向工业时间序列基础模型的通用预训练语料库,其构建融合了三大支柱:真实实验室录音、标准化开源数据适配以及合成数据生成管线。真实数据部分涵盖UR3与KUKA KR10机械臂在拾取与放置、螺丝拧紧和插销入孔等任务上的实测执行,共计约9.1k个片段,同时整合了voraus-AD、AURSAD及UMich CNC等高质量开源数据集并通过适配脚本统一映射至Setpoint-Effort-Feedback-Context(S-E-F-C)架构。合成管线依托NVIDIA Isaac Sim进行程序化生成,通过对有效载荷质量、表面摩擦系数、控制器增益及传感器噪声等参数进行域随机化,产生9.8k个与真实数据架构对齐的拾取与放置片段,从而大幅扩展数据规模与多样性。
特点
FactoryNet的独特之处在于其基于IEC 81346标准设计的S-E-F-C控制论信号分类体系,该体系将超过300个异构数据列系统性地映射至设定值、作用力、反馈和情境四类角色,从根本上将指令意图与实测响应解耦,打破了传统数据集因命名规格不同而难以跨机器泛化的壁垒。数据集共涵盖23k个端到端任务执行片段,包含5,100万数据点、6种机器实体、27种标注异常类型以及健康基线数据,并提供反事实配对用于因果分析。其异常类型涵盖机械碰撞、负载变化、传感器故障、任务时序错位等工业实际场景,有力支撑从单一设备建模到跨实体零样本迁移的多样化研究需求。在跨实体迁移实验中,基于S-E-F-C架构训练的反向动力学模型在偏差感知指标下实现了正向迁移效果,且仅用24个对齐信号便在高维基线面前展现竞争性的异常检测性能。
使用方法
FactoryNet可广泛应用于工业时间序列基础模型预训练、跨实体迁移学习、异常检测及预测维护等任务。研究者可通过HuggingFace平台直接获取以Parquet格式存储的S-E-F-C对齐数据,并配合基于开源框架的数据加载器快速加载。数据按来源、机器类型、任务及健康/故障标签组织,支持针对特定实体或任务子集进行模型训练与评估。对于异常检测任务,建议利用健康片段训练以Setpoint预测Effort的监督回归器,并以逐片段平均绝对误差作为异常评分,经实验验证在24个信号上即可达到83.2%的平均AUROC。在零样本迁移场景中,可先在一个实体上训练TCN-Transformer等前向动力学模型,然后直接在另一实体上评估其预测能力,利用均值中心化MAE指标排除静态偏置影响,从而准确评估动态模型的可迁移性。
背景与挑战
背景概述
FactoryNet是由ETH Zurich、Forgis AG等机构的研究人员于2026年创建的大规模工业时间序列数据集,旨在为工业基础模型提供首个通用预训练语料库。该数据集聚焦于驱动智能维护与过程优化领域,覆盖51M数据点及23k次端到端任务执行,横跨六种机器人实体与三项复杂操作任务。其核心创新在于引入Setpoint-Effort-Feedback-Context(S-E-F-C)控制理论化信号分类法,将机械系统的指令意图与实际响应明确分离,从而支持跨实体零样本迁移与高效异常检测。FactoryNet的发布填补了工业时间序列领域尚无结构化、多实体统一数据集的空白,为工业人工智能从单机定制部署迈向通用基础模型奠定了重要基石。
当前挑战
FactoryNet所应对的核心领域挑战在于工业时间序列数据的异构性与控制回路结构性缺失。传统数据集仅记录原始传感器流,混淆了控制器目标与物理执行效果,且受厂商命名惯例束缚,难以实现跨机器迁移学习。构建过程中,研究者面临多重难题:首先,需将来自UR3、KUKA KR10及CNC加工中心等不同机器、超过300种异构信号列统一映射至S-E-F-C四类角色,确保语义一致性;其次,实验室场景下的故障注入需覆盖27种异常类型(如碰撞、夹持失效、螺纹损伤),并维持健康基线以供对比;此外,仿真数据需通过域随机化(质量、摩擦、控制器增益等参数变化)弥合模拟与现实间隙,在仅含Pick & Place任务的合成数据上平衡规模与保真度。这些挑战的克服使得FactoryNet成为当前规模最大、结构最规整的工业机器人时间序列开放数据集。
常用场景
经典使用场景
FactoryNet数据集为工业时间序列基础模型的预训练提供了首个大规模、多具身形态的统一语料库。其最经典的使用场景在于利用所提出的Setpoint-Effort-Feedback-Context(S-E-F-C)信号分类法,将来自不同机器人平台(如UR3、KUKA KR10、CNC加工中心)及合成数据源的异质传感器信号映射至标准化的控制理论框架中。研究人员可基于此语料库训练具有跨具身形态零样本迁移能力的异常检测与动力学预测模型,首次在工业机器人领域实现从单一机器定制化部署向通用化预训练范式的跨越。
解决学术问题
该数据集系统性地解决了工业时间序列研究中长期存在的两大核心学术难题:其一,现有数据集普遍缺乏对控制环路中指令意图与物理响应之间显式分解的结构化表征,导致模型无法学习可迁移的执行器动态特性;其二,工业AI研究长期受限于单机器、定制化的小规模数据集,缺乏支撑基础模型预训练的大型语料。FactoryNet通过其包含27种标注异常类型、逾2.3万条执行记录及13k真实片段的多元具身语料,为跨机器动力学迁移、零样本异常检测及物理信息时序建模提供了标准化的验证平台,极大推动了工业领域时序基础模型从理论构想向实用化研究范式的演进。
衍生相关工作
FactoryNet的出现衍生了一系列具有里程碑意义的后续研究工作。在模型架构层面,该数据集催生了面向控制环路的TCN-Transformer混合架构,通过将时序卷积与注意力机制结合,在200步滚动的多步预测任务中将均方误差降低至0.11×10⁻⁴ rad²,相较传统线性模型提升逾四个数量级。在方法论层面,研究团队基于S-E-F-C分类法提出了均值中心化MAE(MC-MAE)偏差感知迁移评价指标,首次量化了跨机器动力学迁移中的静态负载偏差与动态特征可分性。同时,该数据集推动了工业时序基础模型的系统性评估标准建立,包括相位感知的仿真-真实差距分析方法,为后续跨模态工业智能模型的设计与验证提供了范式级的参考框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作