ENIGMA-360
收藏arXiv2026-03-11 更新2026-03-13 收录
下载链接:
https://fpv-iplab.github.io/ENIGMA-360/
下载链接
链接失效反馈官方服务:
资源简介:
ENIGMA-360是由卡塔尼亚大学与Next Vision联合开发的工业场景多视角行为理解数据集,包含180对时空同步的自我中心(ego)与外部视角(exo)视频,总规模达360条。数据采集于真实工业实验室,涵盖高压板组装等典型维护流程,配备精细的时间动作分割、关键步骤识别及人机交互空间标注。该数据集旨在解决工业环境中复杂行为建模的挑战,为智能辅助系统开发提供多视角联合分析基准。
ENIGMA-360 is a multi-view behavior understanding dataset for industrial scenarios, jointly developed by the University of Catania and Next Vision. It contains 180 pairs of spatiotemporally synchronized egocentric and exocentric video clips, with a total of 360 clips. The data is collected in real-world industrial laboratories, covering typical maintenance procedures such as high-voltage board assembly, and is accompanied by fine-grained temporal action segmentation, key step recognition and spatial annotations for human-robot interaction. This dataset aims to address the challenges of complex behavior modeling in industrial environments, providing a multi-view joint analysis benchmark for the development of intelligent assistance systems.
提供机构:
卡塔尼亚大学·数学与计算机科学系IPLAB实验室; Next Vision s.r.l. - 卡塔尼亚大学衍生公司
创建时间:
2026-03-10
搜集汇总
数据集介绍
构建方式
在工业场景下,理解人类行为对于开发智能辅助系统至关重要。ENIGMA-360数据集的构建旨在填补真实工业环境中缺乏同步多视角数据的空白。该数据集在一个真实的工业实验室内采集,配备了真实的工业工具和组件,如电源单元、焊接台和电路板。通过与工业专家合作,设计了两项真实的维护流程,确保数据反映实际工作流。数据采集涉及34名参与者,使用Microsoft HoloLens 2采集180个自我中心视频(分辨率2272×1278,30 fps)和ZED相机采集180个外部中心视频(分辨率672×376,15 fps),并通过灯光信号实现时间同步,总时长约111.54小时。为避免依赖物理手册,开发了基于混合现实的应用,提供逐步音频指导。
特点
ENIGMA-360数据集的核心特点在于其多视角同步与丰富的标注体系。数据集包含360个视频,其中自我中心视角提供手部与物体交互的细粒度细节,而外部中心视角则提供环境背景和任务动态的全局理解。标注方面,数据集提供了时间标注,标记了68个关键步骤的开始和结束时间,共计14,556个关键步骤实例,平均时长7.92秒。空间标注包括交互关键帧中手部和物体的边界框、手部侧向、接触状态及手-物体关联,涵盖25个物体类别,标注了275,135个物体和56,473个手部实例。此外,数据集还提供了语义分割掩码、DINOv2视频特征和实验室的3D模型,支持合成到真实的迁移研究。
使用方法
ENIGMA-360数据集适用于人类行为理解的多个研究任务。在时间动作分割任务中,研究者可利用时间标注,训练模型如C2F-TCN或FACT,以识别和定位视频中的动作边界,评估跨视角泛化能力。关键步骤识别任务可通过TimeSformer等模型,基于自我中心或外部中心视频,预测关键步骤标签,并分析视角差异对性能的影响。自我中心人-物体交互检测任务则利用空间标注,采用基于分割掩码或边界框的方法,如VISOR HOS或自适应教师框架,检测手部、接触状态和主动物体。数据集还支持多视角表示学习、3D感知合成到真实迁移等进阶研究,其公开的标注和附加资源为工业场景下的行为建模提供了全面基础。
背景与挑战
背景概述
在工业环境中,从互补的自我中心(ego)和外部中心(exo)视角理解人类行为,对于开发能够支持工人并提升其安全性的智能系统至关重要。然而,该领域的发展长期受限于缺乏在真实工业场景中同时捕捉双视角的数据集。为填补这一空白,卡塔尼亚大学IPLAB实验室与Next Vision公司于2025年联合发布了ENIGMA-360数据集。该数据集在一个真实的工业实验室内采集,包含180对时间同步的自我中心与外部中心视频,完整记录了两种电气板维修的标准化流程。其核心研究问题在于如何通过双视角互补信息,实现对工业场景中人类行为的细粒度理解,包括动作分割、关键步骤识别与人-物交互检测。ENIGMA-360以其真实的工业工具、严谨的工作流程和丰富的时空标注,为工业辅助智能系统的研发提供了至关重要的基准资源,推动了跨视角行为理解模型的发展。
当前挑战
ENIGMA-360数据集旨在解决工业场景下人类行为理解的复杂挑战,其核心领域问题在于如何从同步的双视角视频中,鲁棒地识别、分割并理解精细且具时序逻辑的人类操作。这具体体现为三大任务挑战:在长时、未修剪视频中进行时序动作分割的精确边界定位;在视觉相似度高、步骤繁多的工业流程中实现关键步骤的准确识别;以及在手部遮挡频繁、物体外观多变的自我中心视角下,完成细粒度的人-物交互检测。在数据集构建层面,挑战同样显著:在真实的工业环境内协调多设备进行高质量、时间同步的双视角视频采集面临技术难题;为长达111.54小时、包含68类关键步骤的视频流提供精细的时空与空间标注,需要巨大的人工成本与严谨的标注协议;此外,还需克服工业场景固有的隐私、安全与流程保密性约束,以获取既真实又合法的数据。
常用场景
经典使用场景
在工业场景中,理解人类行为对于开发智能辅助系统至关重要。ENIGMA-360数据集通过提供同步的自我中心(ego)和外部中心(exo)视频对,为研究者提供了一个独特的平台,用于探索多视角下的人类行为分析。该数据集最经典的使用场景在于支持时序动作分割、关键步骤识别以及自我中心人-物交互检测这三个基础任务。这些任务共同构成了工业环境中人类行为理解的核心框架,使得模型能够从互补的视角中提取精细的动作细节与全局的上下文信息,从而推动智能监控与辅助系统的研发。
解决学术问题
ENIGMA-360数据集主要解决了工业领域缺乏真实多视角数据的问题,填补了现有数据集中在视觉复杂性和流程真实性方面的空白。它通过提供详细的时空标注,使研究者能够深入探究人类在工业环境中的行为模式,如动作的时序边界、关键步骤的顺序执行以及手与物体的交互细节。这些标注不仅支持模型在单一视角下的性能评估,还促进了跨视角泛化能力的研究,揭示了当前先进方法在真实工业场景中的局限性,从而催生了更具鲁棒性的多视角理解模型的发展。
衍生相关工作
ENIGMA-360数据集衍生了一系列经典研究工作,主要集中在多视角行为理解模型的创新上。例如,研究者利用该数据集评估了如C2F-TCN、ASFormer、FACT等时序动作分割方法在工业场景中的性能,并探索了跨视角泛化的挑战。同时,基于关键步骤识别的任务推动了如TimeSformer等模型在精细动作分析中的应用。在人-物交互检测方面,数据集促进了如VISOR HOS和自适应教师框架等方法的改进,这些工作不仅提升了模型的准确性,还为工业领域的视觉理解开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成



