IKEA ASM

Name: IKEA ASM
Creator: 澳大利亚国立大学
Published: 2023-05-17 15:56:52
License: 暂无描述

arXiv2023-05-17 更新2024-06-21 收录

下载链接：

https://ikeaasm.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

IKEA ASM数据集是由澳大利亚国立大学创建的一个大型多视角家具组装视频数据集，包含300万个视频帧，涵盖深度、原子动作、物体分割和人体姿态等多种信息。该数据集旨在推动对人类活动的深入理解，特别是在家具组装等任务导向活动中的应用。数据集通过多种传感器和视角捕捉，提供了丰富的多模态数据，适用于开发和评估视频动作识别、物体分割和人体姿态估计等算法。此外，数据集的高多样性和真实性使其成为研究复杂人类动作和物体交互的宝贵资源。

The IKEA ASM Dataset is a large-scale multi-view furniture assembly video dataset created by The Australian National University. It contains 3 million video frames, covering multiple types of information including depth data, atomic actions, object segmentation, and human poses. This dataset aims to advance the in-depth understanding of human activities, particularly for task-oriented activities such as furniture assembly. Captured via multiple sensors and viewpoints, it provides rich multimodal data that is suitable for developing and evaluating algorithms including video action recognition, object segmentation, and human pose estimation. Additionally, its high diversity and authenticity make it a valuable resource for studying complex human actions and object interactions.

提供机构：

澳大利亚国立大学

创建时间：

2020-07-01

搜集汇总

数据集介绍

构建方式

在家具组装理解这一计算机视觉领域中，IKEA ASM 数据集的构建体现了对真实场景下人类活动分析的深度需求。该数据集通过部署三台 Kinect V2 摄像头，从前、侧、顶三个视角同步采集数据，帧率约为 24 fps，确保了多视角覆盖以应对遮挡问题。数据收集涉及 48 名参与者在五种不同环境（如办公室、实验室和家庭）中组装四种类型的家具，并在不同工作表面（地板或桌子）上进行，以增强背景和姿态的多样性。所有视频均经过精细标注，包括原子动作的时间边界、物体实例分割、人体姿态关键点，并通过亚马逊 Mechanical Turk 平台进行质量把控，同时利用关键帧选择和伪标注技术扩展了空间标注的覆盖范围，最终形成了包含 371 个组装视频、约 300 万帧的多模态数据集。

使用方法

在计算机视觉研究中，IKEA ASM 数据集为多项任务提供了基准测试与算法开发的基础。对于动作识别，研究者可利用其多视角 RGB 序列和原子动作标签，训练或评估如 I3D、P3D 等时空模型，并可探索融合姿态、深度等多模态信息以提升性能。在实例分割与多目标跟踪方面，数据集提供的家具部件分割掩码与唯一身份 ID 支持对 Mask R-CNN 等模型进行训练，并可通过 SORT 等算法实现在线跟踪，尤其适用于纹理稀疏物体的几何建模。人体姿态估计任务则可利用其 2D/3D 关键点标注，评估 OpenPose、VIBE 等方法在复杂遮挡和非常规姿态下的表现。数据集按环境划分的训练/测试集确保了模型对新场景的泛化能力，同时附带的处理代码与评估脚本进一步便利了研究比较与复现。

背景与挑战

背景概述

在计算机视觉领域，理解人类活动一直是核心研究议题，而家具组装作为任务导向型活动的典型代表，其复杂性对现有模型提出了更高要求。IKEA ASM数据集由澳大利亚国立大学与悉尼科技大学的研究团队于2020年联合创建，旨在填补细粒度动作理解数据的空白。该数据集通过多视角、多模态的数据采集方式，记录了371段家具组装视频，涵盖深度信息、原子动作标注、物体实例分割及人体姿态估计，总计超过三百万帧图像。其核心研究问题聚焦于如何整合几何与语义信息，以支持长时程、结构化活动的分析与建模，对机器人协作、增强现实等应用领域具有重要推动作用。

当前挑战

IKEA ASM数据集所针对的家具组装理解任务，面临若干固有挑战：组装部件通常具有高度对称性与视觉相似性，要求模型具备上下文推理与长期状态保持能力；背景环境缺乏判别信息，迫使算法必须专注于人体动作与家具部件的交互关系。在数据构建过程中，研究团队需克服多传感器同步校准、复杂遮挡下的人体姿态标注、以及纹理缺失物体的实例分割等难题。此外，数据的高度不平衡性与动作类别的细粒度区分，进一步增加了标注一致性保障与模型泛化性能提升的难度。

常用场景

经典使用场景

在计算机视觉领域，家具组装理解作为任务导向型人类活动分析的重要分支，长期以来受限于高质量标注数据的匮乏。IKEA ASM数据集以其多视角、多模态的丰富标注，为细粒度动作识别研究提供了经典实验平台。该数据集通过同步采集RGB、深度信息、人体姿态及物体实例分割数据，支持研究者开发能够融合几何与语义信息的端到端模型，尤其在处理长时程、结构化活动方面展现出独特价值。

解决学术问题

该数据集有效应对了现有动作识别研究中的若干瓶颈问题，例如背景信息缺失导致的分类困难、高度相似物体间的区分挑战以及长时依赖建模的复杂性。通过提供精确的原子级动作标注与多视角几何数据，IKEA ASM使研究者能够深入探索跨模态特征融合、时空上下文建模等核心课题，为理解人类与物体的交互机制提供了前所未有的数据支撑。

实际应用

在现实应用层面，该数据集为智能机器人协作系统提供了关键训练资源。通过分析人类组装家具时的动作序列与物体状态变化，可衍生出适用于工业装配、家庭服务机器人的视觉感知算法。其多视角设置特别有助于解决实际场景中的遮挡问题，而精细的物体分割标注则为机器人抓取规划提供了重要参考，推动人机协作系统向更自然、高效的方向发展。

数据集最近研究