HUMOTO

Name: HUMOTO
Creator: 德克萨斯大学奥斯汀分校, Adobe Research
Published: 2025-04-15 00:59:29
License: 暂无描述

arXiv2025-04-15 更新2025-04-17 收录

下载链接：

https://jiaxin-lu.github.io/humoto/

下载链接

链接失效反馈

官方服务：

资源简介：

HUMOTO数据集是由德克萨斯大学奥斯汀分校和Adobe Research联合创建的高保真人类对象交互4D动画数据集。该数据集包含736个动作序列，总计7875秒（30帧/秒），涵盖63种精确建模的物体和72个关节部件。数据集的特色在于详细的交互建模，特别是手部姿势的精确捕捉。数据集通过场景驱动的LLM脚本化管道创建完整、有目的的任务，并通过运动捕捉和相机记录设置处理遮挡。数据集适用于运动生成、机器人技术、计算机视觉和具身AI系统等多个研究领域。

The HUMOTO dataset is a high-fidelity 4D animation dataset for human-object interaction, jointly created by The University of Texas at Austin and Adobe Research. This dataset contains 736 motion sequences, totaling 7875 seconds (30 frames per second), covering 63 precisely modeled objects and 72 articulated parts. It features detailed interaction modeling, particularly the accurate capture of hand poses. The dataset generates complete, purposeful tasks via a scene-driven LLM scripted pipeline, and handles occlusions through motion capture and camera recording setups. It is applicable to multiple research fields including motion generation, robotics, computer vision, and embodied AI systems.

提供机构：

德克萨斯大学奥斯汀分校, Adobe Research

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

HUMOTO数据集的构建采用了多模态捕捉方法，结合了场景驱动的LLM脚本生成技术和多传感器设置。首先，通过大型语言模型（LLM）生成自然日常活动的详细脚本，确保每个动作序列具有明确的功能性和逻辑性。随后，使用Rokoko智能套装和电磁场（EMF）技术手套捕捉表演者的全身运动和精细手部动作，同时通过双Kinect RGB-D传感器记录物体姿态。所有序列经过专业艺术家的严格清理和独立验证，确保运动自然且无足部滑动或物体穿透等问题。

特点

HUMOTO数据集以其高保真度和多样性著称，包含736个精心策划的序列，总计7,875秒的运动数据（30 fps），涵盖与63个精确建模物体的交互。其独特之处在于详细的手部姿势捕捉和多物体交互场景，如烹饪、储物整理等。数据集还提供了不同抽象层次的文本注释，增强了其在语义理解任务中的实用性。此外，HUMOTO在运动平滑度、物体运动真实性和接触质量等指标上表现优异，显著优于现有数据集。

使用方法

HUMOTO数据集适用于多个研究领域，包括运动生成、机器人学和计算机视觉。在运动生成中，研究者可以利用其文本注释和高质量运动数据训练生成模型，将文本描述转化为真实的交互序列。在机器人学中，数据集的精细手部动作和物体交互信息可用于模拟和训练机器人执行复杂任务。计算机视觉领域的研究者则可以利用其提供的3D地面真实数据，进行检测、跟踪和重建任务的模型训练。此外，数据集的多层次注释使其成为研究自然动作序列和任务规划的宝贵资源。

背景与挑战

背景概述

HUMOTO（Human Motions with Objects）是由德克萨斯大学奥斯汀分校和Adobe Research的研究团队于2025年推出的高保真4D人机交互数据集。该数据集聚焦于复杂多物体交互场景下的精细动作捕捉，包含736个动作序列（总计7,875秒，30fps），涵盖63种精确建模物体和72个可动部件。其创新性体现在采用场景驱动的LLM脚本生成流程和多模态动作捕捉系统，通过专业艺术家的严格数据清洗，显著提升了足部滑动和物体穿透等关键指标的质量。作为首个同时记录全身运动与多物体交互的4D数据集，HUMOTO为计算机视觉、机器人学和生成式AI领域提供了研究复杂日常交互行为的新基准。

当前挑战

在领域问题层面，HUMOTO致力于解决现有数据集在复杂多物体交互建模中的三大瓶颈：1) 现有单物体交互数据集无法捕捉现实场景中的并发操作逻辑；2) 精细手部动作的缺失导致抓取姿态真实性不足；3) 离散动作片段难以支撑连续任务推理。在构建过程中，研究团队面临传感器同步校准、电磁干扰抑制、多视角遮挡处理等技术挑战，特别是当同时追踪15个物体与全手21个关节点时，需融合惯性测量单元与RGB-D相机的异构数据流。此外，保持物理合理性与动作自然度的平衡，以及LLM生成脚本与真实人体运动学的对齐，均为数据集构建的核心难点。

常用场景

经典使用场景

HUMOTO数据集在运动生成、计算机视觉和机器人应用领域具有经典使用场景。其高保真的人类-物体交互数据特别适用于模拟复杂的日常活动，如烹饪、户外野餐等。通过详细的手部姿势和精确的物体建模，HUMOTO为研究者提供了丰富的多物体交互数据，填补了现有数据集中缺乏详细手部动作和多物体交互的空白。

衍生相关工作

HUMOTO数据集衍生了许多相关经典工作，尤其是在运动生成和机器人学习领域。例如，MotionGPT等生成模型利用HUMOTO的文本注释数据生成交互序列，而机器人学习系统则通过模拟HUMOTO中的任务导向动作，开发出更具实用性的家庭辅助机器人。此外，HUMOTO还为人类行为预测和虚拟角色动画等研究提供了重要数据支持。

数据集最近研究