robomimic-mh-can-image
收藏Hugging Face2025-06-26 更新2025-06-26 收录
下载链接:
https://huggingface.co/datasets/ankile/robomimic-mh-can-image
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,是一个机器人技术相关的数据集,包含300个episodes和62756帧数据。数据集结构包括动作(7维浮点数数组)、观察状态(9维浮点数数组)、图像(84x84x3的视频数据)等信息。视频数据的帧率为20fps,格式为av1编码的yuv420p。数据集还包含时间戳、帧索引、episode索引等元数据。
This dataset was developed by LeRobot for robotics research. It contains 300 episodes and a total of 62756 frames of data. The dataset structure includes actions represented as 7-dimensional floating-point arrays, observation states as 9-dimensional floating-point arrays, and 84×84×3 video image data, among other information. The video data has a frame rate of 20 fps and uses the av1-encoded yuv420p format. The dataset also includes metadata such as timestamps, frame indices, and episode indices.
提供机构:
ankile
创建时间:
2025-06-26
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
- 代码库版本: v2.1
数据集结构
- 总片段数: 300
- 总帧数: 62756
- 总任务数: 1
- 总视频数: 600
- 总块数: 1
- 块大小: 1000
- 帧率: 20 fps
- 数据路径:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频路径:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
- 动作 (action):
- 数据类型: float32
- 形状: [7]
- 名称: action_0, action_1, action_2, action_3, action_4, action_5, action_6
- 下一步完成状态 (next.done):
- 数据类型: bool
- 形状: [1]
- 名称: done
- 观测状态 (observation.state):
- 数据类型: float32
- 形状: [9]
- 名称: robot0_eef_pos_0, robot0_eef_pos_1, robot0_eef_pos_2, robot0_eef_quat_0, robot0_eef_quat_1, robot0_eef_quat_2, robot0_eef_quat_3, robot0_gripper_qpos_0, robot0_gripper_qpos_1
- 观测图像 (observation.images.agentview 和 observation.images.robot0_eye_in_hand):
- 数据类型: video
- 形状: [84, 84, 3]
- 名称: height, width, channel
- 视频信息:
- 高度: 84
- 宽度: 84
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 20 fps
- 通道数: 3
- 是否有音频: false
- 时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
- 帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
- 片段索引 (episode_index):
- 数据类型: int64
- 形状: [1]
- 索引 (index):
- 数据类型: int64
- 形状: [1]
- 任务索引 (task_index):
- 数据类型: int64
- 形状: [1]
分割信息
- 训练集: 0:300
搜集汇总
数据集介绍

构建方式
在机器人学习领域,robomimic-mh-can-image数据集专为模仿学习研究而设计,其构建依托于LeRobot框架。数据集包含300个演示片段,共计62756帧数据,以20帧每秒的速率采集。每条轨迹均记录7维动作向量、9维机器人末端执行器状态,并同步采集两个视角的84x84像素RGB图像(agentview与robot0_eye_in_hand),图像采用AV1编码压缩。数据以Parquet格式存储,视频独立保存为MP4文件,结构上按chunk分块组织,便于大规模加载与分布式处理。
使用方法
使用该数据集时,研究者可通过LeRobot库直接加载Parquet文件与关联视频。基于meta/info.json中的特征定义,用户可提取action、observation.state及图像序列作为模型输入。数据集已预设训练集划分(0至299集),无需额外拆分。推荐结合模仿学习框架(如行为克隆或扩散策略)进行模型训练,利用20Hz的采样频率对齐时序信息,并通过双视角图像实现视觉-动作映射的端到端学习。
背景与挑战
背景概述
在机器人学习领域,从示范中学习(Learning from Demonstration, LfD)已成为赋予机器人复杂操作技能的核心范式。robomimic-mh-can-image数据集正是这一趋势下的重要产物,由研究团队基于robomimic框架构建,并托管于HuggingFace平台,旨在推动多模态机器人操作任务的研究。该数据集创建于2023年前后,聚焦于机械臂执行罐体操作(can manipulation)这一精细任务,包含300个示范片段、总计62756帧视觉与状态信息,其中视觉数据涵盖84×84像素的agentview和手眼相机图像,状态数据则包括末端执行器位姿与夹爪开合度等9维特征。作为robomimic生态的组成部分,该数据集为模仿学习、离线强化学习等方法提供了标准化基准,其影响力体现在对机器人操作策略泛化性研究的支撑,尤其促进了视觉-运动联合表征学习的发展,成为连接仿真环境与真实机器人实验的桥梁。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:罐体操作涉及非刚性物体抓取、姿态调整与精确放置,要求机器人从高维视觉输入中提取鲁棒特征,并解决观测噪声与动力学不确定性带来的策略迁移难题,这与ImageNet所解决的静态图像分类任务形成鲜明对比。构建过程中遭遇的挑战同样严峻:300个示范片段需依赖人工遥操作或运动捕捉系统采集,耗时且难以保证动作质量的一致性;84×84的低分辨率图像虽降低计算成本,却可能丢失细微纹理与深度信息,加剧了视觉域适应困难。此外,数据仅包含单一任务与固定场景,缺乏光照变化、物体位姿偏移等干扰因素,限制了策略在真实环境中的泛化能力,而20Hz的采样频率与有限的状态维度(9维)进一步对时序建模与状态估计精度提出了严苛要求。
常用场景
经典使用场景
在机器人学习领域,robomimic-mh-can-image数据集专为多任务模仿学习与视觉运动策略训练而设计。该数据集包含300个演示片段,总计超过6万帧时序数据,通过机器人执行罐体操作任务(如抓取、放置)采集得到。其核心价值在于提供多视角视觉输入(agentview与手眼相机)与低维状态信息(末端执行器位姿、夹爪开合度)的联合观测,并记录完整的7维动作序列。研究者可基于此数据集训练从视觉观测到动作输出的端到端策略模型,尤其适用于评估不同模仿学习算法(如行为克隆、逆强化学习)在复杂操作任务上的泛化能力与样本效率。
解决学术问题
该数据集系统性地解决了机器人操作领域中数据稀疏性与任务泛化性的矛盾。传统模仿学习常受限于单任务、低维度状态输入,难以迁移至真实场景。robomimic-mh-can-image通过提供标准化、多模态的演示数据,使研究者能够量化分析视觉特征表示对策略鲁棒性的影响,并探索多任务联合训练中任务干扰与知识共享的机理。其意义在于为对比不同算法(如扩散策略、隐式行为克隆)在相同基准下的表现提供了可靠平台,推动了从简单抓取到复杂序列操作的理论建模,成为验证模仿学习可扩展性的重要基石。
实际应用
在实际工业与家庭服务场景中,该数据集支撑了机器人从示教学习到自主执行的关键技术落地。例如,基于该数据集训练的视觉策略可应用于仓储物流中的物品分拣,通过手眼相机实时调整夹爪姿态以应对不同摆放角度的罐体。此外,其多视角观测设计使机器人能在遮挡或光照变化下保持操作稳定性,适用于厨房辅助、医疗器具传递等精细化任务。企业可借助该数据集快速原型化视觉-运动控制管线,降低从仿真到真实环境部署的调试成本,加速机器人技能库的构建。
数据集最近研究
最新研究方向
在机器人学习领域,robomimic-mh-can-image数据集正成为推动多模态模仿学习与视觉运动策略发展的关键资源。该数据集包含300个高质量演示片段,融合了机械臂末端执行器状态、关节信息及双视角视觉观测(agentview与手眼相机),为研究基于图像的机器人操作任务提供了标准化基准。当前前沿方向聚焦于利用此类数据集训练端到端的视觉运动策略,尤其是在非结构化环境中实现罐头拾放等精细操作。结合近期具身智能研究热潮,该数据集被广泛用于验证行为克隆、逆强化学习及离线强化学习算法的泛化能力,其多模态特征设计(7维动作空间与9维状态观测)为探索跨任务迁移学习与数据高效策略优化提供了重要实验平台,对推动机器人从仿真到真实场景的零样本部署具有显著意义。
以上内容由遇见数据集搜集并总结生成



