five

SmolVLA_LiftGreenCube5_Franka_1000

收藏
Hugging Face2025-08-21 更新2025-08-21 收录
下载链接:
https://huggingface.co/datasets/Calvert0921/SmolVLA_LiftGreenCube5_Franka_1000
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用LeRobot创建的机器人控制数据集,专门针对Franka机械臂设计。数据集包含1000个训练episodes,总计122787帧数据,帧率为30fps。数据特征包括8维动作空间(7个关节位置和夹爪位置)、9维状态观测(7个关节位置和2个手指位置)、256x256分辨率的顶部和腕部摄像头图像,以及时间戳、帧索引等元数据。数据以parquet格式存储,适用于机器人学习和强化学习研究。

This is a robotic control dataset created using LeRobot, specifically designed for Franka robotic arms. The dataset contains 1000 training episodes, totaling 122,787 frames at a frame rate of 30fps. The data features include an 8-dimensional action space (7 joint positions and gripper position), a 9-dimensional state observation (7 joint positions and 2 finger positions), 256×256 resolution images captured by the top-down and wrist-mounted cameras, as well as metadata such as timestamps and frame indices. The data is stored in Parquet format, suitable for robotic learning and reinforcement learning research.
提供机构:
Calvert0921
创建时间:
2025-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,高质量的数据集对于模型训练至关重要。SmolVLA_LiftGreenCube5_Franka_1000数据集依托LeRobot框架构建,通过Franka机械臂执行单一任务,系统采集了1000条完整交互轨迹。数据以30帧每秒的频率记录,每条轨迹包含状态、动作及多视角图像观测,最终被结构化存储为Parquet格式文件,确保了数据的高效存取与完整性。
特点
该数据集在机器人学习领域展现出鲜明的技术特征。其核心在于提供了丰富的多模态观测数据,不仅包含机械臂7个关节及夹爪的精确位置状态,还整合了来自上方和腕部摄像头的256x256分辨率RGB图像。数据规模涵盖122,787帧,所有特征均以统一的浮点或整型格式封装,结构清晰且便于直接用于端到端的视觉语言动作模型训练。
使用方法
为有效利用该数据集进行算法研发,研究者可通过LeRobot库或兼容的数据加载工具直接读取Parquet文件。数据已预划分为训练集,可直接用于行为克隆、强化学习或世界模型等任务的训练。使用时需注意对齐图像、状态与动作序列的时间戳,并依据任务需求对关节空间或图像特征进行适当的预处理或归一化。
背景与挑战
背景概述
在机器人学习领域,高质量、大规模的真实世界交互数据集对于推动模仿学习与强化学习算法的进步至关重要。SmolVLA_LiftGreenCube5_Franka_1000数据集应运而生,它由Hugging Face的LeRobot项目团队构建,专注于记录Franka机械臂执行特定操作任务(如抓取绿色立方体)的完整交互轨迹。该数据集收录了1000条独立示教片段,总计超过12万帧数据,融合了关节状态、多视角图像(包括腕部和顶部摄像头)以及精确的动作指令,旨在为基于视觉的机器人策略学习提供坚实的实证基础。其结构化设计反映了当前研究对可复现、细粒度机器人行为数据集的迫切需求,有望加速端到端控制模型的开发与评估。
当前挑战
该数据集致力于解决机器人操作任务中视觉-动作映射的复杂挑战,其核心在于如何从高维视觉观察中稳健地推断出精确的连续控制指令。具体而言,挑战体现在多模态感知的融合、长时程动作序列的生成,以及面对环境微小变化时的策略泛化能力。在构建过程中,团队需克服数据采集的稳定性难题,确保Franka机械臂在重复执行抓取任务时轨迹的一致性;同时,处理并同步多路高清视频流与底层关节状态数据,对存储效率和时序对齐提出了较高要求。此外,标注大规模真实交互数据本身耗时耗力,且需保证动作空间与观察空间的完备性与无偏性,以支撑后续模型的可靠训练。
常用场景
经典使用场景
在机器人学习领域,该数据集为模仿学习与视觉-动作策略训练提供了关键资源。其包含的Franka机械臂关节状态、夹爪动作以及多视角图像数据,使得研究者能够构建端到端的控制模型,模拟真实环境中的抓取与操作任务。通过整合高维观测与低维动作空间,该数据集典型地用于训练神经网络从视觉输入直接映射到关节控制指令,推动机器人自主执行复杂操作的能力。
解决学术问题
该数据集有效应对了机器人学中样本效率低下与仿真到现实迁移的挑战。其大规模的真实世界交互数据缓解了强化学习对海量试错的需求,为离线强化学习与行为克隆提供了坚实基础。同时,多模态观测数据促进了跨模态表示学习的发展,帮助模型更好地理解环境状态与动作间的因果关系,从而提升策略的泛化性与鲁棒性。
衍生相关工作
围绕该数据集,衍生出诸多经典研究工作,主要集中在视觉-语言-动作模型与机器人策略学习的前沿领域。例如,基于SmolVLA架构的模型利用此类多模态数据进行预训练,实现了自然语言指令到机器人动作的端到端生成。同时,该数据集也促进了离线强化学习算法在机器人控制中的验证与优化,为数据驱动的机器人学习范式提供了重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作