vladimirmodylevskii/smolvla_vegetables
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/vladimirmodylevskii/smolvla_vegetables
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "so_follower",
"total_episodes": 28,
"total_frames": 8951,
"total_tasks": 1,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200,
"fps": 30,
"splits": {
"train": "0:28"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"action": {
"dtype": "float32",
"names": [
"shoulder_pan.pos",
"shoulder_lift.pos",
"elbow_flex.pos",
"wrist_flex.pos",
"wrist_roll.pos",
"gripper.pos"
],
"shape": [
6
]
},
"observation.state": {
"dtype": "float32",
"names": [
"shoulder_pan.pos",
"shoulder_lift.pos",
"elbow_flex.pos",
"wrist_flex.pos",
"wrist_roll.pos",
"gripper.pos"
],
"shape": [
6
]
},
"observation.images.top": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.wrist": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
提供机构:
vladimirmodylevskii
搜集汇总
数据集介绍

构建方式
在机器人操作学习领域,高质量的数据集对于模型训练至关重要。smolvla_vegetables数据集依托LeRobot平台构建,通过so_follower型机器人执行三项具体任务,系统采集了96个完整操作片段。数据以Parquet格式存储,并辅以MP4格式的视频记录,总计包含24750帧观测数据,帧率为每秒30帧,确保了时序动作的连贯性与真实性。
特点
该数据集在机器人感知与控制方面展现出显著特点,其观测特征融合了多视角视觉信息与精确关节状态。顶部与腕部摄像头均提供480x640分辨率的RGB视频流,同步记录六自由度机械臂的关节位置与夹爪状态。数据结构清晰,通过帧索引、片段索引与任务索引实现多层次组织,便于研究者针对特定任务或行为阶段进行深入分析。
使用方法
为有效利用该数据集进行机器人技能学习研究,用户可通过加载Parquet文件访问结构化动作与状态数据,同时结合视频文件获取丰富的视觉上下文。数据集已预设训练划分,涵盖全部96个操作片段,适用于端到端模仿学习或强化学习算法的训练。研究者可依据任务索引筛选特定操作场景,或利用时序帧数据构建状态-动作序列,以开发鲁棒的家庭环境物体操作模型。
背景与挑战
背景概述
在机器人学习领域,模仿学习与视觉感知的结合正成为推动机器人自主操作能力发展的关键方向。smolvla_vegetables数据集应运而生,它依托于HuggingFace的LeRobot开源框架构建,专注于机器人对蔬菜类物体的操作任务。该数据集收录了由so_follower型机器人执行的三项具体任务,包含96个完整操作序列和超过两万帧的多模态数据,涵盖了机器人关节状态、夹爪动作以及来自顶部和腕部摄像头的视觉信息。其结构化设计旨在为机器人模仿学习算法提供高质量的示范数据,以促进机器人在非结构化环境中对日常物品的灵巧操作能力。
当前挑战
该数据集致力于解决机器人模仿学习中的视觉-动作映射挑战,特别是在处理蔬菜这类形态多样、质地柔软且易变形的物体时,如何从多视角视频流中稳健地提取操作策略。构建过程中的挑战包括多模态数据的精确同步与对齐,确保高维关节动作数据与高帧率视觉观测在时间上的一致性;以及数据采集的规模与多样性限制,有限的示范任务和操作场景可能制约模型的泛化能力。此外,高效存储与处理大规模视频数据,同时保持数据集的易用性和可访问性,也是构建过程中需要克服的技术障碍。
常用场景
经典使用场景
在机器人学习领域,smolvla_vegetables数据集为模仿学习与视觉运动控制研究提供了关键支持。该数据集通过记录机械臂在蔬菜处理任务中的关节位置、图像观察及动作序列,构建了多模态交互轨迹。研究者可基于这些轨迹训练策略模型,使机器人学习从视觉输入到关节动作的映射关系,实现自主执行抓取、放置等精细操作。
实际应用
在农业自动化与食品加工场景中,该数据集支持机器人执行蔬菜分拣、包装等任务。基于数据驱动的模型能够适应不同蔬菜的形状、大小与摆放姿态,提升生产线的灵活性与效率。此类应用有助于降低人工成本,实现可持续的精准农业操作,并为服务机器人进入家庭厨房等复杂环境提供技术参考。
衍生相关工作
围绕该数据集,衍生出多项机器人模仿学习与视觉运动控制的经典研究。例如,基于时空注意力机制的策略网络利用其多视角视频序列提升动作预测精度;此外,结合逆强化学习的轨迹生成方法也借助该数据集验证了在多样化任务上的泛化性能。这些工作共同推动了数据高效型机器人技能学习框架的演进。
以上内容由遇见数据集搜集并总结生成



