OpenPack

Name: OpenPack
Creator: 越南国家大学胡志明市技术大学计算机科学与工程学院
Published: 2025-05-15 21:56:14
License: 暂无描述

arXiv2025-05-15 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.10312v1

下载链接

链接失效反馈

官方服务：

资源简介：

OpenPack数据集是一个大规模、多模态的数据集，旨在全面捕捉现代物流中心真实包装操作的复杂性。该数据集在模拟环境中收集，包含53.8小时的传感器数据，记录了104次采集会话，有20,161个操作实例和53,286个动作实例。包装操作分为10个主要活动类别，细粒度的动作分为32个类别，详细描述了订单处理工作流程的每个步骤。该数据集通过深度学习方法（Attention Autoencoder和条件生成对抗网络）生成数据集，并通过数据洗牌增强数据集的多样性。

The OpenPack Dataset is a large-scale, multimodal dataset designed to comprehensively capture the complexity of real-world packaging operations in modern logistics centers. Collected in a simulated environment, the dataset contains 53.8 hours of sensor data, spanning 104 acquisition sessions, 20,161 operational instances and 53,286 action instances. Packaging operations are categorized into 10 major activity classes, while fine-grained actions are divided into 32 classes, detailing every step of the order processing workflow. This dataset was generated using deep learning methods including Attention Autoencoder and Conditional Generative Adversarial Network (CGAN), and its diversity was enhanced via data shuffling.

提供机构：

越南国家大学胡志明市技术大学计算机科学与工程学院

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

OpenPack数据集的构建基于工业环境中人类活动识别（HAR）的实际需求，采用多模态传感器在模拟物流中心环境中采集数据。数据集包含来自21名工人的53.8小时传感器数据，涵盖10类主要包装操作和32类细粒度动作，通过104次采集会话形成20,161个操作实例和53,286个动作实例。数据采集过程严格模拟真实物流场景，确保数据的高保真度和代表性。

特点

OpenPack数据集以其大规模、多模态和层次化标注结构著称。其特点包括：1）覆盖完整的包装工作流程，从物品拣选到订单填写；2）采用加速度计等多传感器同步采集，保留原始信号的时间动态特性；3）独特的双层标注体系（操作级和动作级）支持不同粒度的分析需求；4）包含真实工业环境中的工作变异性和过渡状态，为模型鲁棒性测试提供理想基准。

使用方法

该数据集适用于工业活动识别算法的开发与验证。典型使用流程包括：1）通过滑动窗口（300时间步长，150步重叠）分割时序传感器数据；2）利用Transformer架构提取时空特征；3）结合交叉熵损失和Adam优化器进行模型训练。研究证明，采用随机序列（RS）数据增强策略时，配合注意力自编码器（AAE）可达到最佳性能（F1分数0.64）。数据集还支持生成对抗网络（CTGAN）的合成数据训练，为小样本学习提供解决方案。

背景与挑战

背景概述

OpenPack数据集作为工业场景下人类活动识别（HAR）研究的重要基准，由日本京都大学等机构于2023年发布，旨在解决物流中心复杂包装作业的精细化识别问题。该数据集通过多模态传感器采集了53.8小时的操作数据，包含10类主要作业活动和32类细粒度动作标签，在3m×5m的模拟仓库环境中构建了104个采集会话。其创新性的分层标注体系为工业自动化领域的活动识别、工作流优化及安全监控提供了关键数据支撑，推动了基于Transformer等深度学习模型在时序数据分析中的应用发展。

当前挑战

OpenPack面临的核心挑战体现在两个维度：在领域问题层面，工业场景中连续重复性动作的时序依赖性（如扫描标签与装箱的交替）导致传统HAR模型难以捕捉瞬时特征，而作业人员个体差异加剧了数据异质性；在构建层面，多传感器同步采集的硬件校准、毫米级动作标注的可靠性验证，以及'其他'类（Label 8100）样本不足导致的类别不平衡问题，均为数据质量控制带来严峻考验。此外，合成数据生成中如何保持真实作业的物理约束（如包装动作的力学特征）与时序逻辑的一致性，仍是当前研究的难点。

常用场景

经典使用场景

OpenPack数据集在工业环境中的人体活动识别（HAR）领域具有广泛的应用。该数据集通过模拟物流中心的工作场景，记录了工人在包装操作中的多模态传感器数据，包括加速度计数据和操作标签。研究人员可以利用这些数据训练深度学习模型，以识别和分类复杂的工业活动序列。特别是在物流和制造业中，OpenPack为优化工作流程、提高效率和增强安全性提供了宝贵的数据支持。

衍生相关工作

OpenPack数据集已经催生了一系列相关研究工作。在方法层面，有学者基于该数据集提出了结合注意力自动编码器（AAE）和条件生成对抗网络（CTGAN）的合成数据生成策略。在应用层面，衍生出了专注于工业场景的Transformer-based HAR模型，以及针对时序数据增强的随机序列重组技术。这些工作不仅验证了数据集的实用价值，还推动了工业活动识别领域的方法创新，为后续研究奠定了重要基础。

数据集最近研究