HABIT

Name: HABIT
Creator: configinc
Published: 2026-07-01 21:57:58
License: 暂无描述

Hugging Face2026-07-01 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/configinc/HABIT

下载链接

链接失效反馈

官方服务：

资源简介：

HABIT（人类意识行为与交互训练数据集）是一个大规模机器人演示数据集，专为人类在场环境设计。该数据集包含10,563个episodes和164小时的双臂操作数据，覆盖60个任务，并基于三种交互角色组织：协作角色（Collaborator，人类与机器人共同完成共享任务）、同事角色（Coworker，人类与机器人在共享空间内独立执行各自任务）和监管角色（Supervisor，人类观察并指导机器人）。数据集旨在训练机器人策略，使其具备人类意识行为，如避让、手势跟随和时空协调，并通过多摄像头流（包括机器人侧和人类侧视角）和精细的子任务注释记录人机交互动态。数据收集采用反应式协议，强调人类在场演示，以填补人类缺席数据在社交协调行为上的空白。

HABIT (Human-Aware Behavior and Interaction Training Dataset) is a large-scale robot demonstration dataset designed for human-present environments. It contains 10,563 episodes and 164 hours of bimanual manipulation data, covering 60 tasks, and is organized based on three interaction roles: Collaborator (where humans and robots jointly complete shared tasks), Coworker (where humans and robots independently perform their own tasks in a shared space), and Supervisor (where humans observe and guide robots). The dataset aims to train robot policies to exhibit human-aware behaviors, such as avoidance, gesture following, and spatiotemporal coordination, and records human-robot interaction dynamics through multi-camera streams (including robot-side and human-side perspectives) and detailed subtask annotations. Data collection uses a reactive protocol, emphasizing human-present demonstrations to fill gaps in social coordination behaviors present in human-absent data.

提供机构：

configinc

创建时间：

2026-07-01

原始信息汇总

数据集概述

HABIT (Human-Aware Behavior and Interaction Training Dataset) 是一个面向人类共存环境的机器人操作大规模演示数据集，专为训练机器人策略以具备人类感知行为而设计。

核心特性

🤝 人类在场的演示：每个数据片段都包含一位共同在场的人类伙伴，数据通过反应式采集协议捕获。
🎭 三种交互角色：基于人机交互文献中的角色分类，包括协作者、同事和监督者，各角色数据量相当。
🔗 任务工作流：采用图结构任务表示，明确捕获跨智能体的依赖关系。
👫 子任务级标注：在演示过程中记录人类和机器人双方子任务的边界。
📷 五路RGB摄像头：3个机器人侧视角 + 2个人类侧视角，全面捕获人机交互。
🦾 双臂操作：使用两台安装在共享底座上的Franka Research 3 (FR3) 机械臂。

数据集规模

指标	数值
任务数	60
片段数	10,563
帧数	591万
总时长	164.19小时
角色数	3 (协作者 / 同事 / 监督者)
每片段摄像头	5 (3个机器人侧 + 2个人类侧)
机器人平台	双臂 Franka Research 3
数据格式	LeRobot v2.0

片段时长（秒）： 均值59.9，中位数56.4，范围30.3 – 101.4。 独特子任务数： 157个机器人子任务，182个人类子任务，308个独特的人机子任务对。

三种交互角色

角色	任务数	片段数	时长（小时）	每片段机器人子任务数	每片段人类子任务数
协作者	20	3,198	49.98	3.86	4.70
同事	20	3,969	57.33	3.12	4.25
监督者	20	3,396	56.88	4.15	3.98

协作者: 人类与机器人通过直接物理交互（如传递物体、共同提桶）完成共享目标，机器人需在空间和时间上与人协调。
同事: 人类与机器人在共享空间内各自执行独立任务，无直接物理接触，机器人需避免与人碰撞以确保安全。
监督者: 人类通过手势或口头指令等明确线索指挥机器人，机器人需仅凭视觉输入感知人类意图。

硬件配置

机器人: 双臂 Franka Research 3，配备 Robotiq 2F-85 夹爪。
工作空间: 位于人与机器人之间的“前桌”（直接共享工作空间）和位于人旁的“侧桌”（专用于人类侧活动）。
摄像头（5路RGB）:
- 机器人-中心: 向前倾斜，捕获人类和共享工作空间。
- 左/右腕部: 分别安装在每个机械臂上。
- 人类头戴（第一人称视角）: 用于定位从机器人侧视角难以辨别的指点手势对象。
- 外部视角: 观察整个人机工作空间，提供交互的全景视图。
遥操作: 基于Meta Quest 3控制器和DROID代码库。动作表示以关节空间、笛卡尔空间和夹爪状态形式记录。

数据采集协议

每个片段由两名操作员（机器人操作员和人形操作员）录制，各自使用脚踏板在线标记子任务边界。协议遵循三个原则：

反应式交互：每个操作员仅在直接观察到伙伴后行动，禁止排练、眼神信号或口头指令等协调方式。
行为定向诱发：通过三种设计选择使特定人类感知行为出现在数据中：避让（机器人即将与人碰撞时收回）、时间适应（人类操作员速度在不同片段间变化）、手势定位（人类在指点前变化等待时间）。
多样化：同一任务内，衣物颜色和物体交互顺序在不同片段间变化。跨任务，数据集包含不同体型的人类操作员。

数据集结构

遵循 LeRobot v2.0 格式。包含 sample（约1GB，涵盖所有60个任务每个1个片段）和 full（完整数据集）两种配置。结构如下：

{full,sample}/ ├── meta/ # 包含片段、任务、子任务元数据及模式、归一化统计等信息 ├── data/ # 每个Parquet文件存储一个完整片段的(状态、动作、时间戳、语言指令) └── videos/ # 每个MP4文件存储一个片段的一个摄像头流

特征模式

除了标准的LeRobot v2.0模式，HABIT增加了子任务标注字段，每个步骤包含当前活动的机器人子任务索引 (low_level_task_index) 和人类子任务索引 (human_role_subtask_index)，可直接捕获任意时刻人类与机器人子任务的共现关系。

许可

Creative Commons Attribution 4.0 International (CC BY 4.0)