HORA

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/HORA-DB/HORA

下载链接

链接失效反馈

官方服务：

资源简介：

HORA（手-物体到机器人动作）是一个大规模的多模态数据集，用于将人类手-物体交互（HOI）演示转换为机器人可用的监督信号，以支持跨体现学习。它在一个统一的规范动作空间下，结合了HOI风格的注释（如MANO手参数、物体姿态、接触）和体现机器人学习信号（如机器人观察、末端执行器轨迹）。HORA由三个来源/子集构成：1. HORA(Mocap)：使用带有触觉传感器手套的定制多视角运动捕捉系统（包括触觉图）；2. HORA(Recordings)：定制的RGB(D) HOI记录设置（无触觉）；3. HORA(Public Dataset)：源自多个公共HOI数据集，并重新定位到机器人体现（6/7自由度手臂）。总体规模：所有子集共约150k条轨迹。

HORA (Hand-Object to Robot Action) is a large-scale multimodal dataset that converts human hand-object interaction (HOI) demonstrations into supervisory signals usable by robots to support cross-embodiment learning. It integrates HOI-style annotations (e.g., MANO hand parameters, object poses, contact information) and embodied robotic learning signals (e.g., robot observations, end-effector trajectories) under a unified standardized action space. HORA comprises three source subsets: 1. HORA(Mocap): A custom multi-view motion capture system equipped with tactile sensor gloves (including tactile maps); 2. HORA(Recordings): A custom RGB(D) HOI recording setup without tactile sensing; 3. HORA(Public Dataset): Derived from multiple public HOI datasets and adapted for robotic embodiment with 6/7-degree-of-freedom robotic arms. Overall scale: Approximately 150k total trajectories across all subsets.

创建时间：

2026-01-13

原始信息汇总

HORA: Hand–Object to Robot Action 数据集概述

数据集摘要

HORA (Hand–Object to Robot Action) 是一个大规模多模态数据集，它将人类手-物体交互演示转换为可用于机器人学习的监督信号，以支持跨具身学习。该数据集在一个统一的规范动作空间下，结合了手-物体交互风格的标注（如MANO手部参数、物体位姿、接触）与具身机器人学习信号（如机器人观测、末端执行器轨迹）。

关键特征

统一的多模态表示：涵盖所有子集，同时支持手-物体交互分析和下游机器人学习。
手-物体交互模态：包括MANO手部参数（姿态/形状 + 全局变换）、物体6自由度位姿、物体资产、手-物体接触标注。
机器人模态：包括腕部视角和第三人称视角的观测、机器人手臂的末端执行器位姿轨迹，均映射到规范动作空间。
触觉模态：仅限动作捕捉子集，提供手和物体的密集触觉图。

数据集构成与规模

HORA 数据集由三个来源/子集构成：

HORA(Mocap)：使用定制多视角动作捕捉系统和触觉传感手套采集，包含触觉图。包含63,141条轨迹。
HORA(Recordings)：使用定制RGB(D)手-物体交互录制设备采集，无触觉数据。包含23,560条轨迹。
HORA(Public Dataset)：源自多个公开手-物体交互数据集，并重定向到机器人具身（6/7自由度手臂）。包含66,924条轨迹。

总体规模：所有子集总计约150,000条轨迹。

支持的任务与用例

模仿学习 / 视觉运动策略学习
视觉-语言-动作模型训练与评估
以手-物体交互为中心的研究：接触分析、位姿/轨迹学习、手/物体动力学

数据格式示例

每个片段/轨迹可能包含以下字段：

手-物体交互字段：hand_mano, object_pose_6d, contact, object_asset
机器人字段：obs_wrist_rgb, obs_third_rgb, ee_pose, gripper, action_space
触觉字段：仅限动作捕捉子集，包含 tactile_hand, tactile_object

许可证

Apache 2.0

搜集汇总

数据集介绍

构建方式

在跨模态机器人学习领域，HORA数据集通过整合多源异构数据构建而成，其核心在于将人类手-物交互演示转化为机器人可用的监督信号。该数据集包含三个子集：HORA(Mocap)基于定制多视角运动捕捉系统与触觉传感手套采集，融合了触觉地图；HORA(Recordings)源自定制RGB(D)手-物交互录制装置；HORA(Public Dataset)则通过对多个公开手-物交互数据集进行重定向处理，适配至六或七自由度机械臂平台。整体涵盖约十五万条轨迹，构建过程注重在统一规范动作空间下对齐手-物交互分析与机器人学习模态。

使用方法

该数据集适用于模仿学习、视觉运动策略学习及视觉-语言-动作模型训练等多种任务。研究人员可依据任务需求调用相应数据字段：手-物交互研究可关注MANO参数、物体位姿与接触标注；机器人策略学习则可利用腕部RGB观测、末端执行器轨迹及规范动作空间元数据。数据以轨迹片段形式组织，每个片段包含手-物交互字段、机器人字段及可选的触觉字段，用户可通过标准化接口加载并处理这些多模态序列，进而构建端到端的学习管道或进行细致的跨模态分析。

背景与挑战

背景概述

在机器人学习与人机交互领域，如何将人类灵巧的手部操作技能高效迁移至机器人系统，一直是跨具身学习的核心研究问题。HORA数据集由研究团队于近年创建，旨在构建一个大规模多模态数据集，通过整合手-物交互的丰富标注与机器人可用的监督信号，为模仿学习与视觉-语言-动作模型训练提供统一基准。该数据集融合了运动捕捉、自定义RGB(D)记录及公开数据集重定向三大来源，涵盖约15万条轨迹，显著推动了从人类演示到机器人动作生成的跨领域研究。

当前挑战

HORA数据集致力于解决手-物交互技能向机器人动作迁移的复杂挑战，包括跨具身映射中的运动学差异、多模态数据对齐以及接触动力学建模等难题。在构建过程中，研究者需克服大规模多视角数据采集的同步性、触觉传感器集成的高精度要求，以及从异构公开数据集重定向至机器人动作空间时的语义一致性保持等技术障碍。这些挑战共同塑造了数据集在模仿学习与具身智能应用中的独特价值。

常用场景

经典使用场景

在机器人模仿学习领域，HORA数据集通过融合人手-物体交互的演示数据与机器人可用的监督信号，为跨具身学习提供了关键支持。其经典使用场景在于训练视觉-语言-动作模型，将人类手部操作的精细动作转化为机器人末端执行器的轨迹，实现从观察到动作的端到端映射。该数据集的多模态特性，包括手部参数、物体位姿和触觉信息，使得模型能够学习复杂的操作技能，如抓取、放置和工具使用，从而在仿真和真实机器人平台上验证策略的有效性。

解决学术问题

HORA数据集解决了机器人学中跨具身模仿的核心挑战，即如何将人类演示的高维、多模态数据适配到不同形态的机器人上。它通过统一的手-物体交互标注与机器人动作空间，为研究提供了标准化的基准，促进了接触分析、轨迹学习和动力学建模等方向的发展。该数据集的意义在于弥合了人类行为理解与机器人控制之间的鸿沟，推动了视觉-语言-动作模型的进步，并为具身智能的泛化能力奠定了数据基础。

实际应用

在实际应用中，HORA数据集可服务于家庭服务机器人、工业自动化及医疗辅助设备等领域。例如，机器人能够通过学习人类操作物体的触觉和视觉反馈，自主执行装配、分拣或康复训练等任务。其触觉子集尤其适用于对精细操作要求高的场景，如精密仪器维护或手术辅助，通过模拟人类手部的力觉反馈，提升机器人在复杂环境中的适应性和安全性。

数据集最近研究