five

HABIT

收藏
Hugging Face2026-07-01 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/configinc/HABIT
下载链接
链接失效反馈
官方服务:
资源简介:
HABIT(人类意识行为与交互训练数据集)是一个大规模机器人演示数据集,专为人类在场环境设计。该数据集包含10,563个episodes和164小时的双臂操作数据,覆盖60个任务,并基于三种交互角色组织:协作角色(Collaborator,人类与机器人共同完成共享任务)、同事角色(Coworker,人类与机器人在共享空间内独立执行各自任务)和监管角色(Supervisor,人类观察并指导机器人)。数据集旨在训练机器人策略,使其具备人类意识行为,如避让、手势跟随和时空协调,并通过多摄像头流(包括机器人侧和人类侧视角)和精细的子任务注释记录人机交互动态。数据收集采用反应式协议,强调人类在场演示,以填补人类缺席数据在社交协调行为上的空白。

HABIT (Human-Aware Behavior and Interaction Training Dataset) is a large-scale robot demonstration dataset designed for human-present environments. It contains 10,563 episodes and 164 hours of bimanual manipulation data, covering 60 tasks, and is organized based on three interaction roles: Collaborator (where humans and robots jointly complete shared tasks), Coworker (where humans and robots independently perform their own tasks in a shared space), and Supervisor (where humans observe and guide robots). The dataset aims to train robot policies to exhibit human-aware behaviors, such as avoidance, gesture following, and spatiotemporal coordination, and records human-robot interaction dynamics through multi-camera streams (including robot-side and human-side perspectives) and detailed subtask annotations. Data collection uses a reactive protocol, emphasizing human-present demonstrations to fill gaps in social coordination behaviors present in human-absent data.
提供机构:
configinc
创建时间:
2026-07-01
原始信息汇总

数据集概述

HABIT (Human-Aware Behavior and Interaction Training Dataset) 是一个面向人类共存环境的机器人操作大规模演示数据集,专为训练机器人策略以具备人类感知行为而设计。

核心特性

  • 🤝 人类在场的演示:每个数据片段都包含一位共同在场的人类伙伴,数据通过反应式采集协议捕获。
  • 🎭 三种交互角色:基于人机交互文献中的角色分类,包括协作者、同事和监督者,各角色数据量相当。
  • 🔗 任务工作流:采用图结构任务表示,明确捕获跨智能体的依赖关系。
  • 👫 子任务级标注:在演示过程中记录人类和机器人双方子任务的边界。
  • 📷 五路RGB摄像头:3个机器人侧视角 + 2个人类侧视角,全面捕获人机交互。
  • 🦾 双臂操作:使用两台安装在共享底座上的Franka Research 3 (FR3) 机械臂。

数据集规模

指标 数值
任务数 60
片段数 10,563
帧数 591万
总时长 164.19小时
角色数 3 (协作者 / 同事 / 监督者)
每片段摄像头 5 (3个机器人侧 + 2个人类侧)
机器人平台 双臂 Franka Research 3
数据格式 LeRobot v2.0

片段时长(秒): 均值59.9,中位数56.4,范围30.3 – 101.4。 独特子任务数: 157个机器人子任务,182个人类子任务,308个独特的人机子任务对。

三种交互角色

角色 任务数 片段数 时长(小时) 每片段机器人子任务数 每片段人类子任务数
协作者 20 3,198 49.98 3.86 4.70
同事 20 3,969 57.33 3.12 4.25
监督者 20 3,396 56.88 4.15 3.98
  • 协作者: 人类与机器人通过直接物理交互(如传递物体、共同提桶)完成共享目标,机器人需在空间和时间上与人协调。
  • 同事: 人类与机器人在共享空间内各自执行独立任务,无直接物理接触,机器人需避免与人碰撞以确保安全。
  • 监督者: 人类通过手势或口头指令等明确线索指挥机器人,机器人需仅凭视觉输入感知人类意图。

硬件配置

  • 机器人: 双臂 Franka Research 3,配备 Robotiq 2F-85 夹爪。
  • 工作空间: 位于人与机器人之间的“前桌”(直接共享工作空间)和位于人旁的“侧桌”(专用于人类侧活动)。
  • 摄像头(5路RGB):
    • 机器人-中心: 向前倾斜,捕获人类和共享工作空间。
    • 左/右腕部: 分别安装在每个机械臂上。
    • 人类头戴(第一人称视角): 用于定位从机器人侧视角难以辨别的指点手势对象。
    • 外部视角: 观察整个人机工作空间,提供交互的全景视图。
  • 遥操作: 基于Meta Quest 3控制器和DROID代码库。动作表示以关节空间、笛卡尔空间和夹爪状态形式记录。

数据采集协议

每个片段由两名操作员(机器人操作员和人形操作员)录制,各自使用脚踏板在线标记子任务边界。协议遵循三个原则:

  1. 反应式交互:每个操作员仅在直接观察到伙伴后行动,禁止排练、眼神信号或口头指令等协调方式。
  2. 行为定向诱发:通过三种设计选择使特定人类感知行为出现在数据中:避让(机器人即将与人碰撞时收回)、时间适应(人类操作员速度在不同片段间变化)、手势定位(人类在指点前变化等待时间)。
  3. 多样化:同一任务内,衣物颜色和物体交互顺序在不同片段间变化。跨任务,数据集包含不同体型的人类操作员。

数据集结构

遵循 LeRobot v2.0 格式。包含 sample(约1GB,涵盖所有60个任务每个1个片段)和 full(完整数据集)两种配置。结构如下:

{full,sample}/ ├── meta/ # 包含片段、任务、子任务元数据及模式、归一化统计等信息 ├── data/ # 每个Parquet文件存储一个完整片段的(状态、动作、时间戳、语言指令) └── videos/ # 每个MP4文件存储一个片段的一个摄像头流

特征模式

除了标准的LeRobot v2.0模式,HABIT增加了子任务标注字段,每个步骤包含当前活动的机器人子任务索引 (low_level_task_index) 和人类子任务索引 (human_role_subtask_index),可直接捕获任意时刻人类与机器人子任务的共现关系。

许可

Creative Commons Attribution 4.0 International (CC BY 4.0)

二维码
社区交流群
二维码
科研交流群
商业服务