H2O

Name: H2O
Creator: 上海交通大学
Published: 2021-04-23 16:30:54
License: 暂无描述

arXiv2021-04-23 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2104.11466v1

下载链接

链接失效反馈

官方服务：

资源简介：

H2O数据集是由上海交通大学创建的一个多用途基准数据集，专注于视觉分析人类间物体交接行为。该数据集包含18,000个视频片段，涉及15人交接30种不同物体，支持多种基于视觉的任务。创建过程中，邀请15名志愿者形成40对交接者，通过标记协议记录手部和物体动态。H2O数据集不仅服务于机器人学和认知科学领域，还为计算机视觉研究提供丰富的视觉分析资源，特别适用于解决接收者抓取预测等挑战性任务。

The H2O dataset is a versatile benchmark dataset created by Shanghai Jiao Tong University, focusing on visual analysis of human-to-human object handover behaviors. It contains 18,000 video clips, involving 15 participants handing over 30 distinct object types and supporting multiple vision-based tasks. During its development, 15 volunteers were recruited to form 40 handover pairs, with hand and object dynamics recorded via a standardized labeling protocol. The H2O dataset not only caters to the fields of robotics and cognitive science but also provides abundant visual analysis resources for computer vision research, and is particularly well-suited for tackling challenging tasks such as receiver grasping prediction.

提供机构：

上海交通大学

创建时间：

2021-04-23

搜集汇总

数据集介绍

构建方式

在视觉人机交互领域，对象传递行为的研究长期受限于高质量数据集的匮乏。H2O数据集的构建采用了严谨的多模态采集协议，邀请了15名志愿者组成40对传递者-接收者组合，对30种日常物体进行传递交互。数据采集过程部署了5台英特尔RealSense D435相机，从第一人称和第三人称视角同步录制RGB-D视频；同时，利用12个NDI TrakSTAR磁传感器精确捕捉手部姿态，辅以3个PST Base光学追踪器记录物体的六自由度位姿。所有交互视频均被细致标注了手部与物体位姿、传递阶段、抓握类型及任务导向意图等多维度信息，最终形成了包含18K视频片段、共计500万帧的丰富数据集。

特点

H2O数据集的核心特点在于其全面性与高精度。作为首个大规模、多视角、富标注的人-人对象传递视觉数据集，它不仅涵盖了预传递、物理交换及传递后三个完整阶段，还提供了真实世界与合成版本的双重数据源。其标注体系尤为精细，包括基于标记点的高精度手部21自由度姿态与物体6D位姿，以及依据抓握分类学标注的抓握类型和任务意图。数据集的规模与多样性显著超越了现有同类数据集，能够同时支持手-物体交互重建、接收者抓握预测等多种视觉任务，并为机器人模仿学习提供了高质量的视频示范。

使用方法

该数据集为计算机视觉与机器人学领域的研究者提供了多任务基准平台。对于手-物体交互重建任务，研究者可利用其预传递阶段的子集，训练或评估从单目RGB图像中联合估计手部与物体姿态的模型。针对新颖的接收者抓握预测任务，数据集的结构化划分允许模型学习从传递者的手-物体状态推理出接收者可行的抓握配置。此外，完整的传递序列可作为机器人模仿学习的示范数据，通过将记录的人体运动轨迹迁移至仿真环境，为机器人学习灵巧传递技能提供参考。使用前需遵循论文提供的训练、验证、测试划分方案，并注意处理多视角数据与不同标注模态的对应关系。

背景与挑战

背景概述

物体交接是人类协作中的基础行为，在机器人学、认知科学和计算机视觉领域均具有重要研究价值。上海交通大学的研究团队于2021年提出了H2O数据集，旨在填补视觉分析领域在人类间物体交接行为研究上的空白。该数据集包含18K视频片段，涉及15名参与者交接30类物体，提供了手部姿态、物体位姿、交接阶段、抓握类型等多维度标注。作为首个大规模、多视角、富含标注的视觉交接基准，H2O不仅支持手-物交互重建等传统任务，更开创性地定义了接收者抓握预测这一新问题，为机器人模仿学习与灵巧操作提供了宝贵的视觉演示资源，推动了跨领域研究的深度融合。

当前挑战

在领域问题层面，H2O致力于解决视觉交接分析中的核心挑战：如何从单目视觉观测中理解并预测动态、多智能体协作的交接过程。具体而言，接收者抓握预测任务要求模型在交接前阶段，仅依据给予者的手-物状态，推理出接收者可行且合理的抓握配置，同时需规避双手碰撞并适应不同任务意图，这对模型的时空推理与物理理解能力提出了极高要求。在构建过程中，研究团队面临两大挑战：其一，复杂动态抓握导致基于无标记的手部重建方法极易失稳，难以保证轨迹记录的精度与连续性；其二，物理交接阶段严重的遮挡使得基于多视角的光学标记追踪时常失效，需辅以大量人工标注以确保6D位姿数据的完整性。

常用场景

经典使用场景

在机器人学与认知科学的交叉领域，物体交接行为作为人类协作的基础环节，其视觉分析长期面临数据匮乏的挑战。H2O数据集通过提供大规模、多视角、富含标注的人-人物体交接视频序列，为研究者构建了首个专注于视觉交接分析的基准平台。该数据集最经典的应用场景在于支持接收者抓握预测任务，即基于交接前阶段的单帧RGB图像，推理接收者如何从给予者手中接取物体，从而实现对完整交接过程的端到端建模。

衍生相关工作

围绕H2O数据集，已衍生出一系列经典研究工作。其提出的基准方法RGPNet开创性地以生成式模型解决接收者抓握预测问题，为后续研究提供了重要范式。该数据集亦被广泛用于评估和改进手-物交互重建模型，如对Hasson等人与Tekin等人方法的性能对比分析。此外，基于H2O的轨迹数据，研究者可进一步探索交接意图识别、多模态交接策略生成等方向，持续推动视觉交接分析领域向更精细、更智能的方向演进。

数据集最近研究