smolvla_vegetables
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/vladimirmodylevskii/smolvla_vegetables
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,采用Apache-2.0许可证,属于机器人学领域。数据集包含28个episodes,总计8951帧,涉及1个任务。数据以parquet文件格式存储,总数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据集结构包括动作、观测状态、图像(顶部和手腕视角)、时间戳、帧索引、episode索引、任务索引等特征。动作和观测状态特征均为6维浮点数组,分别对应机器人的各个关节位置。图像特征为480x640分辨率的视频,采用AV1编码,无音频。该数据集适用于机器人控制、行为模仿等相关任务。
创建时间:
2026-04-11
搜集汇总
数据集介绍

构建方式
在机器人操作任务领域,smolvla_vegetables数据集依托LeRobot框架构建,通过so_follower型机器人采集了96个完整操作序列,涵盖3项具体任务。数据以30帧每秒的速率记录,包含24750帧结构化信息,存储为分块的Parquet文件,同时辅以顶部与腕部视角的双路视频流,确保了时序动作与视觉观测的同步对齐。
特点
该数据集的核心特征在于其多模态融合的观测体系,不仅提供了六自由度机械臂的关节位置状态与动作指令,还集成了高分辨率双视角RGB视频流,形成状态-图像联合表征。数据结构层次分明,通过帧索引、任务索引与回合索引实现精准定位,支持大规模机器人模仿学习与策略评估所需的复杂时空关联分析。
使用方法
研究人员可通过加载Parquet格式的数据块,便捷地访问动作、观测状态及时间戳等字段,并配合MP4视频文件进行视觉信息解码。数据集已预划分为训练集,适用于端到端策略训练、行为克隆或强化学习算法的验证,其标准化接口能够无缝接入基于LeRobot的机器人学习管道,加速算法迭代与实验复现。
背景与挑战
背景概述
在机器人学习领域,模仿学习与视觉运动控制是推动机器人自主执行复杂任务的核心研究方向。smolvla_vegetables数据集由LeRobot项目团队构建,专注于机器人操作任务,特别是针对蔬菜处理场景。该数据集采集了机器人执行抓取、放置等动作时的多模态数据,包括关节状态、视觉观测与时间戳信息,旨在为机器人策略学习提供高质量的示范数据。尽管具体创建时间与研究人员信息尚未公开,但其依托的开源平台LeRobot在社区中具有一定影响力,为机器人学习的数据驱动方法提供了重要资源。
当前挑战
该数据集致力于解决机器人视觉运动策略学习中的挑战,即如何从多模态示范中有效学习精细操作技能,尤其在非结构化环境下的泛化能力。构建过程中的挑战包括多传感器数据的同步与对齐,确保高维视觉流与低维状态信息的一致性;数据采集的规模与多样性受限,仅包含96个片段和3种任务,可能影响模型的泛化性能;此外,处理大规模视频数据带来的存储与计算开销,以及标注与质量控制也是实际构建中需克服的难点。
常用场景
经典使用场景
在机器人学习领域,smolvla_vegetables数据集为模仿学习与视觉运动控制研究提供了宝贵资源。该数据集记录了机械臂执行蔬菜处理任务时的多模态数据,包括关节位置状态、顶部与腕部摄像头视频流,以及时间戳与任务索引。研究者可基于这些数据训练端到端的策略模型,使机器人能够通过视觉观察自主规划动作,完成诸如抓取、放置或分类蔬菜等精细操作。数据集结构清晰,支持高效的数据加载与处理,为算法开发与验证奠定了坚实基础。
解决学术问题
该数据集主要针对机器人模仿学习中的样本效率与泛化能力问题。通过提供真实世界中的多视角视觉观测与对应动作序列,它有助于解决高维状态空间下的策略优化挑战,降低对仿真环境的依赖。其意义在于推动了数据驱动的机器人控制方法发展,使模型能够从有限演示中学习复杂技能,并适应环境变化。影响层面,它促进了视觉-动作映射、跨任务迁移学习等研究方向,为构建更智能、灵活的自主系统提供了实证支持。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在机器人模仿学习与视觉运动控制领域。例如,研究者利用其多模态数据开发了基于Transformer的序列模型,以预测机械臂动作;也有工作结合强化学习框架,探索从演示中学习策略的样本高效方法。此外,数据集促进了跨模态表示学习的发展,如将视觉特征与关节状态编码为统一空间,提升模型在未见任务上的泛化性能。这些工作共同推动了机器人自主操作技术的进步。
以上内容由遇见数据集搜集并总结生成



