vladimirmodylevskii/eval_smolvla_grapes
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/vladimirmodylevskii/eval_smolvla_grapes
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "so_follower",
"total_episodes": 2,
"total_frames": 2470,
"total_tasks": 1,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200,
"fps": 30,
"splits": {
"train": "0:2"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"action": {
"dtype": "float32",
"names": [
"shoulder_pan.pos",
"shoulder_lift.pos",
"elbow_flex.pos",
"wrist_flex.pos",
"wrist_roll.pos",
"gripper.pos"
],
"shape": [
6
]
},
"observation.state": {
"dtype": "float32",
"names": [
"shoulder_pan.pos",
"shoulder_lift.pos",
"elbow_flex.pos",
"wrist_flex.pos",
"wrist_roll.pos",
"gripper.pos"
],
"shape": [
6
]
},
"observation.images.top": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.wrist": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
许可证:Apache-2.0
任务类别:
- 机器人学(robotics)
标签:
- LeRobot
配置项:
- 配置名称:default
数据文件:data/*/*.parquet
---
本数据集由[LeRobot](https://github.com/huggingface/lerobot)工具链构建。
## 数据集说明
- **主页**:[更多信息待补充]
- **论文**:[更多信息待补充]
- **许可证**:Apache-2.0
## 数据集结构
[meta/info.json](meta/info.json):
json
{
"代码库版本": "v3.0",
"机器人类型": "so_follower",
"总回合数": 2,
"总帧数": 2470,
"总任务数": 1,
"块大小": 1000,
"数据文件总大小(单位:MB)": 100,
"视频文件总大小(单位:MB)": 200,
"帧率": 30,
"数据划分": {
"训练集": "0:2"
},
"数据路径格式": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"视频路径格式": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"特征项": {
"动作": {
"数据类型": "float32",
"维度名称": [
"肩关节俯仰位置",
"肩关节抬升位置",
"肘关节屈伸位置",
"腕关节屈伸位置",
"腕关节滚转位置",
"夹爪位置"
],
"形状": [
6
]
},
"观测.状态": {
"数据类型": "float32",
"维度名称": [
"肩关节俯仰位置",
"肩关节抬升位置",
"肘关节屈伸位置",
"腕关节屈伸位置",
"腕关节滚转位置",
"夹爪位置"
],
"形状": [
6
]
},
"观测.顶部相机图像": {
"数据类型": "视频",
"形状": [
480,
640,
3
],
"维度名称": [
"高度",
"宽度",
"通道数"
],
"详细信息": {
"视频高度": 480,
"视频宽度": 640,
"视频编解码器": "av1",
"视频像素格式": "yuv420p",
"是否为深度图": false,
"视频帧率": 30,
"视频通道数": 3,
"是否包含音频": false
}
},
"观测.腕部相机图像": {
"数据类型": "视频",
"形状": [
480,
640,
3
],
"维度名称": [
"高度",
"宽度",
"通道数"
],
"详细信息": {
"视频高度": 480,
"视频宽度": 640,
"视频编解码器": "av1",
"视频像素格式": "yuv420p",
"是否为深度图": false,
"视频帧率": 30,
"视频通道数": 3,
"是否包含音频": false
}
},
"时间戳": {
"数据类型": "float32",
"形状": [
1
],
"维度名称": null
},
"帧索引": {
"数据类型": "int64",
"形状": [
1
],
"维度名称": null
},
"回合索引": {
"数据类型": "int64",
"形状": [
1
],
"维度名称": null
},
"全局索引": {
"数据类型": "int64",
"形状": [
1
],
"维度名称": null
},
"任务索引": {
"数据类型": "int64",
"形状": [
1
],
"维度名称": null
}
}
}
## 引用
**BibTeX格式:**
bibtex
[更多信息待补充]
提供机构:
vladimirmodylevskii
搜集汇总
数据集介绍

构建方式
在机器人操作领域,高质量的数据集是训练智能体完成复杂任务的基础。eval_smolvla_grapes 数据集基于 LeRobot 框架构建,通过模拟环境采集了共计 2 个回合、2470 帧的演示数据,涵盖单一任务目标。数据以 Parquet 格式存储于 `data/` 目录下,并配备以 AV1 编码、30 帧每秒、640×480 分辨率的同步视频记录,分别来自机器人顶部与腕部的两个视角。每条记录包含六维关节角度序列表示的 action 与 observation.state,以及时间戳、帧索引等元信息,确保了数据维度的完整性与可追溯性。
使用方法
使用 eval_smolvla_grapes 数据集时,推荐用户通过 LeRobot 提供的 API 进行高效加载。首先安装 LeRobot 库,然后利用 `dataset = load_dataset('your_path/eval_smolvla_grapes', split='train')` 即可读取全部演示数据。对于每一帧,用户可直接访问 `action`、`observation.state` 及 `observation.images` 下的 `top` 和 `wrist` 图像张量。由于视频已压缩为 AV1 格式,LeRobot 会自动解码为 NumPy 数组。研究者可基于这些多模态同步数据,构建端到端的操控策略模型或进行行为克隆算法的预训练与评测。
背景与挑战
背景概述
eval_smolvla_grapes数据集诞生于机器人学习领域对精细化操作能力日益增长的探索之中,由Hugging Face社区依托LeRobot框架创建,聚焦于双臂协作或单一从动臂(so_follower)在抓取与操控任务中的表现。该数据集以葡萄为操作对象,旨在通过记录高帧率(30 FPS)的关节状态与多视角视觉信息(顶部及腕部摄像头),为视觉-语言-动作(VLA)模型的评估提供标准化基准。尽管规模有限(仅含2个episode、2470帧),但其精心设计的特征空间(6维动作与状态)与多模态数据融合,为研究机器人从感知到执行的闭环控制提供了关键测试平台,推动了精细物体操作任务的量化分析与算法验证。
当前挑战
该数据集所应对的核心领域挑战在于机器人对柔软、易损物体(如葡萄)的精确抓取与操控,这要求模型在视觉引导下实时调整夹爪力度与姿态,避免损坏目标,同时解决动态环境中的接触稳定性问题。构建过程中面临的困难包括:1)数据采集阶段需同步高精度关节编码器与双路摄像头(480×640分辨率)的时空对齐,确保动作与视觉观测的一致性;2)受限于LeRobot框架的chunk分片存储策略,多模态数据(parquet序列与AV1压缩视频)的融合与重放需克服格式差异带来的读取效率瓶颈;3)仅2个episode的样本量对评估模型的泛化能力提出严苛挑战,可能难以覆盖操作中的边缘情况与噪声干扰。
常用场景
经典使用场景
在机器人学习领域,eval_smolvla_grapes数据集专为模拟环境下葡萄抓取任务而构建,涵盖从机器人状态到视觉感知的完整模态。该数据集包含双视角相机(顶部与腕部)采集的高清视频流,同步记录六自由度关节动作序列与末端执行器状态,为模仿学习、行为克隆及视觉运动策略的端到端训练提供了结构化样本。研究者可利用其中2个完整轨迹、2470帧时序数据,在固定工作台上复现精确的抓取动作,亦可作为小样本学习基准,探索从少量示范中泛化至非结构化场景的可行性。
解决学术问题
该数据集直击机器人抓取研究中示范数据稀缺与多模态对齐难题,通过标准化格式(Parquet+MP4)降低了跨算法对比的复现门槛。其精细的时序标注(30fps帧率与动作空间对齐)支持因果推理与轨迹优化算法验证,尤适用于研究视觉域与运动域间的表征耦合问题。在学术意义上,它填补了农业机器人领域针对柔性物体(如葡萄)的操作本空白,推动果品采摘自动化从几何规划向数据驱动范式转型,为生成式策略与动态环境适应性的理论突破提供了可控实验载体。
实际应用
在智慧农业场景中,该数据集可支撑温室自主采摘机器人的核心技能迁移——通过模仿人类示教轨迹,使机械臂学习对易损果实的柔性夹取操作,避免传统刚性抓取造成的机械损伤。结合腕部近场视觉与全局俯视信息,模型可自适应调整夹爪角度与力控策略,应对葡萄串不规则分布与光线干扰。此外,该数据框架可拓展至分拣装箱、疏花疏果等高精度农事环节,有望降低劳动密集型产业的用工依赖度,加速设施农业的自动化落地进程。
数据集最近研究
最新研究方向
在机器人学习领域,eval_smolvla_grapes数据集作为LeRobot生态体系中的轻量级基准,正被广泛应用于模仿学习与视觉-语言-动作(VLA)模型的验证与优化。该数据集以“抓取”任务为核心,记录了由so_follower机器人采集的2个完整 trajectories,共计2470帧的高频数据(30fps),涵盖六维关节空间的动作与状态信息,并包含顶部与腕部两个视角的640×480视频流。当前前沿研究方向聚焦于如何利用此类小规模、高保真的演示数据,结合av1视频编码与parquet高效存储格式,驱动低样本下的机器人技能泛化。特别是伴随开源人形机器人、通用操作模型的热潮,这类结构清晰、标注完整的数据集为研究“动作-状态-视觉”三元组的特征空间对齐提供了理想起点,其影响在于降低了机器人数据采集门槛,加速了从仿真到真机迁移的实证研究,对构建可复现的机器人学习基准具有重要范式意义。
以上内容由遇见数据集搜集并总结生成



