ENIGMA-360

Name: ENIGMA-360
Creator: 卡塔尼亚大学·数学与计算机科学系IPLAB实验室; Next Vision s.r.l. - 卡塔尼亚大学衍生公司
Published: 2026-03-10 22:47:15
License: 暂无描述

arXiv2026-03-10 更新2026-03-12 收录

下载链接：

https://iplab.dmi.unict.it/ENIGMA-360

下载链接

链接失效反馈

官方服务：

资源简介：

ENIGMA-360是由卡塔尼亚大学IPLAB实验室与Next Vision公司联合开发的工业场景多视角行为理解数据集，包含360条同步采集的自我中心与外部中心视频对。该数据集以真实工业实验室为背景，记录了工人执行维护任务的完整流程，视频总时长未明确但覆盖两种视角各180段，并标注了时间动作分段、关键步骤识别等时空标签。数据通过可穿戴设备与固定摄像头同步采集，辅以工业专家设计的标准化流程。其核心目标是推动工业环境下人机交互检测、安全合规监测等AI辅助系统的研发，填补了真实工业场景多视角行为数据的空白。

ENIGMA-360 is a multi-view behavior understanding dataset for industrial scenarios, jointly developed by the IPLAB Laboratory of the University of Catania and Next Vision Company. It contains 360 synchronized pairs of egocentric and exocentric videos. Based on a real industrial laboratory setting, the dataset records the complete workflow of workers performing maintenance tasks. The total runtime of the videos is not specified, but the dataset covers 180 segments for each of the two perspectives. It is annotated with spatiotemporal labels including temporal action segmentation and key step recognition. The data is synchronously collected via wearable devices and fixed cameras, supplemented by standardized workflows designed by industrial experts. Its core objective is to promote the research and development of AI-assisted systems such as human-computer interaction detection and safety compliance monitoring in industrial environments, filling the gap in multi-view behavior data for real industrial scenarios.

提供机构：

卡塔尼亚大学·数学与计算机科学系IPLAB实验室; Next Vision s.r.l. - 卡塔尼亚大学衍生公司

创建时间：

2026-03-10

搜集汇总

数据集介绍

构建方式

在工业场景下，为弥补现有数据集中缺乏真实环境同步多视角记录的不足，ENIGMA-360数据集通过构建一个真实的工业实验室环境进行采集。实验室配备了真实的工业工具与组件，如电源单元、焊接台和电路板，并由工业专家设计了两种维修程序以确保工作流程的真实性。数据采集过程中，34名参与者佩戴Microsoft HoloLens 2设备录制以第一人称视角（egocentric）的视频，同时使用ZED相机从固定角度录制第三人称视角（exocentric）的视频，两种视角的视频通过灯光信号进行时间同步，最终形成了180对同步的ego-exo视频，总时长约111.54小时。

特点

ENIGMA-360数据集的核心特点在于其多视角同步性与丰富的标注层次。该数据集提供了180对时间同步的egocentric和exocentric视频，使得研究者能够从互补的视角分析同一工业场景。数据集标注涵盖了68个关键步骤的时间边界、手-物交互的空间边界框以及手部接触状态，并额外提供了手部和物体的语义分割掩码、DINOv2视频特征以及实验室的3D模型。这些特点共同支持对工业环境中人类行为的细粒度理解，尤其在时间动作分割、关键步骤识别和手-物交互检测等任务上展现出独特价值。

使用方法

ENIGMA-360数据集适用于多种人类行为理解任务的研究与评估。在时间动作分割任务中，研究者可利用其精细的时间标注来训练和测试模型对长视频中动作边界的识别能力。关键步骤识别任务则依赖于数据集中定义的68个关键步骤及其时间戳，以验证模型对工业流程中必需步骤的检测精度。对于手-物交互检测，数据集提供了手部边界框、物体类别及接触状态等空间标注，支持基于分割或边界框的交互检测方法开发。此外，数据集提供的额外资源如3D模型和视频特征，可用于合成数据生成、跨域适应等拓展研究。

背景与挑战

背景概述

ENIGMA-360数据集由意大利卡塔尼亚大学IPLAB实验室与Next Vision公司于2025年联合创建，旨在填补工业场景中多视角人类行为理解的数据空白。该数据集在真实工业实验室内采集，包含180对时间同步的自我中心（ego）与外部中心（exo）视频，记录了两种电路板维修的标准流程。通过精细的时间动作分割、关键步骤识别及人-物交互检测标注，ENIGMA-360为工业环境下的智能辅助系统开发提供了关键数据支撑，推动了跨视角行为建模与工业人工智能的交叉研究。

当前挑战

ENIGMA-360致力于解决工业场景中多视角人类行为理解的复杂问题，其核心挑战在于跨视角的动作语义对齐与细粒度交互识别。具体而言，自我中心视角与外部中心视角存在显著的外观与运动特征差异，导致现有时序动作分割模型在跨视角泛化中性能急剧下降。数据构建过程中，需克服真实工业环境的数据采集难题，包括在隐私与安全约束下设计标准化流程、实现双视角视频的精准时间同步，以及为纹理复杂的工业工具建立精细的空间标注体系。这些挑战共同凸显了开发鲁棒的多视角行为理解模型的迫切需求。

常用场景

经典使用场景

在工业人机交互与安全监控领域，ENIGMA-360数据集通过同步采集的180对自我中心（ego）与外部中心（exo）视角视频，为理解复杂工业场景中的人类行为提供了多视角互补信息。其最经典的使用场景在于支持时序动作分割、关键步骤识别以及自我中心人-物交互检测三大基础任务的研究。这些任务共同构成了工业环境下行为理解的核心框架，使研究者能够深入分析工人在执行维修、组装等流程性任务时的动作序列、操作规范与安全合规性。

衍生相关工作

围绕ENIGMA-360数据集，已衍生出多个方向的研究工作。在时序动作分割方面，研究比较了C2F-TCN、ASFormer、DiffAct及FACT等模型在跨视角设定下的性能。关键步骤识别任务则探索了TimeSformer等架构在自我中心与外部中心视角上的表现差异。在人-物交互检测领域，工作对比了基于分割掩码（如VISOR HOS方法）与基于边界框的不同方法在工业场景中的有效性。这些研究不仅评估了现有技术的局限，也为开发能够融合多视角信息、适应真实工业复杂性的新型算法奠定了基础。

数据集最近研究