HABIT
收藏Hugging Face2026-07-01 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/configinc/HABIT
下载链接
链接失效反馈官方服务:
资源简介:
HABIT(人类意识行为与交互训练数据集)是一个大规模机器人演示数据集,专为人类在场环境设计。该数据集包含10,563个episodes和164小时的双臂操作数据,覆盖60个任务,并基于三种交互角色组织:协作角色(Collaborator,人类与机器人共同完成共享任务)、同事角色(Coworker,人类与机器人在共享空间内独立执行各自任务)和监管角色(Supervisor,人类观察并指导机器人)。数据集旨在训练机器人策略,使其具备人类意识行为,如避让、手势跟随和时空协调,并通过多摄像头流(包括机器人侧和人类侧视角)和精细的子任务注释记录人机交互动态。数据收集采用反应式协议,强调人类在场演示,以填补人类缺席数据在社交协调行为上的空白。
HABIT (Human-Aware Behavior and Interaction Training Dataset) is a large-scale robot demonstration dataset designed for human-present environments. It contains 10,563 episodes and 164 hours of bimanual manipulation data, covering 60 tasks, and is organized based on three interaction roles: Collaborator (where humans and robots jointly complete shared tasks), Coworker (where humans and robots independently perform their own tasks in a shared space), and Supervisor (where humans observe and guide robots). The dataset aims to train robot policies to exhibit human-aware behaviors, such as avoidance, gesture following, and spatiotemporal coordination, and records human-robot interaction dynamics through multi-camera streams (including robot-side and human-side perspectives) and detailed subtask annotations. Data collection uses a reactive protocol, emphasizing human-present demonstrations to fill gaps in social coordination behaviors present in human-absent data.
提供机构:
configinc
创建时间:
2026-07-01
原始信息汇总
数据集概述
HABIT (Human-Aware Behavior and Interaction Training Dataset) 是一个面向人类共存环境的机器人操作大规模演示数据集,专为训练机器人策略以具备人类感知行为而设计。
核心特性
- 🤝 人类在场的演示:每个数据片段都包含一位共同在场的人类伙伴,数据通过反应式采集协议捕获。
- 🎭 三种交互角色:基于人机交互文献中的角色分类,包括协作者、同事和监督者,各角色数据量相当。
- 🔗 任务工作流:采用图结构任务表示,明确捕获跨智能体的依赖关系。
- 👫 子任务级标注:在演示过程中记录人类和机器人双方子任务的边界。
- 📷 五路RGB摄像头:3个机器人侧视角 + 2个人类侧视角,全面捕获人机交互。
- 🦾 双臂操作:使用两台安装在共享底座上的Franka Research 3 (FR3) 机械臂。
数据集规模
| 指标 | 数值 |
|---|---|
| 任务数 | 60 |
| 片段数 | 10,563 |
| 帧数 | 591万 |
| 总时长 | 164.19小时 |
| 角色数 | 3 (协作者 / 同事 / 监督者) |
| 每片段摄像头 | 5 (3个机器人侧 + 2个人类侧) |
| 机器人平台 | 双臂 Franka Research 3 |
| 数据格式 | LeRobot v2.0 |
片段时长(秒): 均值59.9,中位数56.4,范围30.3 – 101.4。 独特子任务数: 157个机器人子任务,182个人类子任务,308个独特的人机子任务对。
三种交互角色
| 角色 | 任务数 | 片段数 | 时长(小时) | 每片段机器人子任务数 | 每片段人类子任务数 |
|---|---|---|---|---|---|
| 协作者 | 20 | 3,198 | 49.98 | 3.86 | 4.70 |
| 同事 | 20 | 3,969 | 57.33 | 3.12 | 4.25 |
| 监督者 | 20 | 3,396 | 56.88 | 4.15 | 3.98 |
- 协作者: 人类与机器人通过直接物理交互(如传递物体、共同提桶)完成共享目标,机器人需在空间和时间上与人协调。
- 同事: 人类与机器人在共享空间内各自执行独立任务,无直接物理接触,机器人需避免与人碰撞以确保安全。
- 监督者: 人类通过手势或口头指令等明确线索指挥机器人,机器人需仅凭视觉输入感知人类意图。
硬件配置
- 机器人: 双臂 Franka Research 3,配备 Robotiq 2F-85 夹爪。
- 工作空间: 位于人与机器人之间的“前桌”(直接共享工作空间)和位于人旁的“侧桌”(专用于人类侧活动)。
- 摄像头(5路RGB):
- 机器人-中心: 向前倾斜,捕获人类和共享工作空间。
- 左/右腕部: 分别安装在每个机械臂上。
- 人类头戴(第一人称视角): 用于定位从机器人侧视角难以辨别的指点手势对象。
- 外部视角: 观察整个人机工作空间,提供交互的全景视图。
- 遥操作: 基于Meta Quest 3控制器和DROID代码库。动作表示以关节空间、笛卡尔空间和夹爪状态形式记录。
数据采集协议
每个片段由两名操作员(机器人操作员和人形操作员)录制,各自使用脚踏板在线标记子任务边界。协议遵循三个原则:
- 反应式交互:每个操作员仅在直接观察到伙伴后行动,禁止排练、眼神信号或口头指令等协调方式。
- 行为定向诱发:通过三种设计选择使特定人类感知行为出现在数据中:避让(机器人即将与人碰撞时收回)、时间适应(人类操作员速度在不同片段间变化)、手势定位(人类在指点前变化等待时间)。
- 多样化:同一任务内,衣物颜色和物体交互顺序在不同片段间变化。跨任务,数据集包含不同体型的人类操作员。
数据集结构
遵循 LeRobot v2.0 格式。包含 sample(约1GB,涵盖所有60个任务每个1个片段)和 full(完整数据集)两种配置。结构如下:
{full,sample}/ ├── meta/ # 包含片段、任务、子任务元数据及模式、归一化统计等信息 ├── data/ # 每个Parquet文件存储一个完整片段的(状态、动作、时间戳、语言指令) └── videos/ # 每个MP4文件存储一个片段的一个摄像头流
特征模式
除了标准的LeRobot v2.0模式,HABIT增加了子任务标注字段,每个步骤包含当前活动的机器人子任务索引 (low_level_task_index) 和人类子任务索引 (human_role_subtask_index),可直接捕获任意时刻人类与机器人子任务的共现关系。
许可
Creative Commons Attribution 4.0 International (CC BY 4.0)



