AIRBOT_MMK2_place_the_small_bowl_of_canned_food
收藏Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/RoboCOIN/AIRBOT_MMK2_place_the_small_bowl_of_canned_food
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用基于LeRobot的扩展格式,并与LeRobot完全兼容。数据集包括特定类型的机器人、代码库版本和末端执行器类型。数据集涵盖各种场景类型、原子动作,并包含详细的注释。数据集分为训练和测试集,数据被组织成块。特征模式和目录结构也详细描述。
创建时间:
2025-11-18
原始信息汇总
AIRBOT_MMK2_place_the_small_bowl_of_canned_food 数据集概述
📋 基本信息
- 许可证: apache-2.0
- 支持语言: 英语、中文
- 任务类别: 机器人技术
- 数据集标签: RoboCOIN、LeRobot
- 规模分类: 1K-10K
🤖 机器人配置
- 机器人类型: AIRBOT_MMK2
- 代码库版本: v2.1
- 末端执行器类型: 五指手
🏠 场景类型
- 家庭环境
🎯 任务描述
主要任务
机械手从桌子上拿起小碗罐头食品,并将其放置在小桌子上
子任务
- 异常
- 结束
- 用右夹爪抓取小碗罐头食品
- 空
- 用右夹爪将小碗罐头食品放置在桌子上
⚡ 原子动作
- 抓取
- 拾取
- 放置
📊 数据集统计
| 指标 | 数值 |
|---|---|
| 总片段数 | 50 |
| 总帧数 | 7610 |
| 总任务数 | 1 |
| 总视频数 | 200 |
| 总分块数 | 1 |
| 分块大小 | 1000 |
| 帧率 | 30 |
🎥 视觉数据
相机视角
- 4个相机视角
- 分辨率: 480×640
- 帧率: 30 FPS
- 编码格式: AV1
相机类型
- cam_high_rgb
- cam_left_wrist_rgb
- cam_right_wrist_rgb
- cam_third_view
🏷️ 可用标注
子任务标注
- 子任务分割: 细粒度的子任务分割和标注
场景标注
- 场景级描述: 语义场景分类和描述
末端执行器标注
- 方向: 机器人末端执行器运动方向分类
- 速度: 操作过程中的速度幅度分类
- 加速度: 运动分析的加速度幅度分类
夹爪标注
- 夹爪模式: 夹爪开/闭状态标注
- 夹爪活动: 活动状态分类(活动/非活动)
附加特征
- 末端执行器仿真位姿: 仿真空间中末端执行器的6D位姿信息(状态和动作)
- 夹爪开度尺度: 连续的夹爪开度测量(状态和动作)
📂 数据结构
文件组织
- 数据文件: Parquet格式
- 视频文件: MP4格式
- 数据路径模式:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频路径模式:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征架构
视觉观测
- observation.images.cam_high_rgb: 视频
- observation.images.cam_left_wrist_rgb: 视频
- observation.images.cam_right_wrist_rgb: 视频
- observation.images.cam_third_view: 视频
状态和动作
- observation.state: float32 (36维)
- action: float32 (36维)
时间信息
- timestamp: float32
- frame_index: int64
- episode_index: int64
- index: int64
- task_index: int64
运动特征
- eef_sim_pose_state: float32 (12维)
- eef_sim_pose_action: float32 (12维)
- eef_direction_state: int32 (2维)
- eef_direction_action: int32 (2维)
- eef_velocity_state: int32 (2维)
- eef_velocity_action: int32 (2维)
- eef_acc_mag_state: int32 (2维)
- eef_acc_mag_action: int32 (2维)
📊 数据划分
- 训练集: 片段0-49
👥 作者信息
- 贡献者: RoboCOIN团队
🔗 相关链接
- 主页: https://flagopen.github.io/RoboCOIN/
- 论文: https://arxiv.org/abs/2511.17441
- 代码库: https://github.com/FlagOpen/RoboCOIN
- 问题反馈: https://github.com/FlagOpen/RoboCOIN/issues
📚 引用信息
如需在研究中引用此数据集,请使用提供的BibTeX格式引用相关论文。
搜集汇总
数据集介绍

构建方式
在机器人操作数据采集领域,该数据集采用AIRBOT_MMK2双手机器人平台,通过五指灵巧手执行特定任务。数据构建过程包含50个完整操作序列,共计7610帧视觉与状态数据,以30帧率同步记录四路摄像头视角。采用LeRobot扩展格式进行结构化存储,将数据划分为单一数据块,每个数据块容纳1000个操作片段,通过标准化流程确保数据质量与格式统一。
使用方法
研究者可通过加载标准Parquet格式文件获取机器人状态与动作序列,利用四路摄像头视频流进行视觉行为分析。数据集支持端到端模仿学习与强化学习算法验证,通过子任务标注可实现分层策略学习。用户可依据时间戳与帧索引重构完整操作轨迹,结合末端执行器运动特征进行精细化的动作语义解析与策略评估。
背景与挑战
背景概述
机器人操作数据集AIRBOT_MMK2_place_the_small_bowl_of_canned_food由RoboCOIN团队于2025年11月发布,作为双手机器人操作研究的重要数据资源。该数据集聚焦于家庭环境中的精细物体操控任务,通过AIRBOT_MMK2机器人平台与五指灵巧手的协同作业,记录抓取、拾取、放置等基础动作的完整执行过程。其核心研究价值在于为机器人模仿学习与行为克隆算法提供多模态标注数据,涵盖四路视觉观测、末端执行器六维位姿及关节运动轨迹等丰富特征,显著推进了复杂场景下机器人操作策略的泛化能力研究。
当前挑战
在机器人操作领域,该数据集致力于解决灵巧抓取与精确放置任务的策略学习难题,特别是针对非刚性物体在动态环境中的稳定操控。构建过程中面临多重挑战:多视角视觉数据的时间同步与空间标定需要精密校准,五指灵巧手的高自由度运动轨迹标注存在语义歧义,末端执行器与物体交互的动力学特征难以量化描述。此外,家庭场景下光照变化与遮挡干扰对动作分割精度产生影响,36维关节状态与动作空间的维度灾难也增加了行为建模的复杂度。
常用场景
经典使用场景
在机器人操作学习领域,该数据集聚焦于家庭环境中的精细物体操控任务。通过记录五指机械手抓取和放置小碗罐头食品的完整流程,为模仿学习算法提供了丰富的多视角视觉数据与关节运动轨迹。其包含的7610帧高分辨率视频和36维状态动作空间,能够有效支撑端到端策略网络的训练与验证。
解决学术问题
该数据集针对机器人操作中的动态抓取与精准放置难题,提供了细粒度的子任务标注与六维末端执行器位姿信息。通过解构复杂操作任务为原子动作序列,有效解决了动作分割、轨迹规划与多模态感知融合等关键学术问题。其丰富的运动学注解为研究机器人操作中的力控策略与动态稳定性提供了重要数据支撑。
实际应用
在服务机器人领域,该数据集支撑的家庭环境物体操控技术可直接应用于智能家居场景。基于数据驱动的抓取策略能够提升机器人处理日常餐具的能力,为老年照护与家庭助理机器人开发提供关键技术模块。其多相机视角配置与真实环境数据采集方法,为机器人适应复杂居家环境奠定了实践基础。
数据集最近研究
最新研究方向
在家庭服务机器人领域,AIRBOT_MMK2数据集凭借其多视角视频流与精细动作标注体系,正推动双臂协同操作研究的前沿发展。该数据集通过四路高清摄像头捕捉抓取、放置等原子动作的完整时序,结合末端执行器的六维位姿与运动动力学参数,为模仿学习与强化学习算法提供了高保真训练样本。当前研究热点集中于多模态感知融合策略,利用视觉-状态联合表征提升机器人对非结构化家居环境的适应性。随着RoboCOIN项目与LeRobot框架的深度整合,该数据集正成为开发通用家务操作模型的关键基础设施,其开源性特质加速了机器人操作泛化能力的跨实验室验证进程。
以上内容由遇见数据集搜集并总结生成



