svla_koch_pickplace_and_stacking

Hugging Face2025-06-18 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/ITHwangg/svla_koch_pickplace_and_stacking

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由Lebotica团队在LeRobot Worldwide Hackathon活动中创建的数据集，用于训练SmolVLA模型。数据集包含82个任务和2个指令，任务提示为结构化机器人操作提示。数据集文件结构包括数据文件、元数据文件和视频文件。

创建时间：

2025-06-15

原始信息汇总

数据集概述

基本信息

数据集名称: svla_koch_pickplace_and_stacking
创建团队: Lebotica
创建背景: 在LeRobot Worldwide Hackathon期间创建，用于训练SmolVLA模型
任务数量: 82个任务和2个指令
许可证: MIT License

数据集结构

数据目录:
- data/chunk-000/: 包含82个episode的parquet文件
- meta/: 包含episodes.jsonl、episodes_stats.jsonl、info.json和tasks.jsonl
- videos/chunk-000/: 包含侧视和俯视的视频文件

任务示例

Pick-and-Place任务:
- 示例: "Pick a (red | blue | green) ball from the (top | middle | bottom)-(left | center | right) and place in the (red | blue | green) plate."
Stacking任务:
- 示例: "Stack the bowls with coloring order from (red | green | blue) -> (red | green | blue) -> (red | green | blue) to the front of the robot."

使用说明

依赖安装: bash git clone https://github.com/huggingface/lerobot.git cd lerobot pip install -e ".[smolvla]"
训练SmolVLA: bash python lerobot/scripts/train.py --dataset.repo_id=ITHwangg/svla_koch_pickplace_and_stacking --policy.path=lerobot/smolvla_base --num_workers=8 --batch_size=64 --steps=100000 --eval_freq=500 --log_freq=10 --save_freq=500 --save_checkpoint=true
注意事项:
- 当前Python脚本引用名为v2.1的分支
- 需要手动映射epicode索引到任务索引

许可证

类型: MIT License

搜集汇总

数据集介绍

构建方式

该数据集由Lebotica团队在LeRobot全球黑客马拉松期间构建，专为训练SmolVLA模型处理结构化机器人操作指令而设计。数据集包含82个任务实例和2类操作指令，通过标准化模板生成多样化任务，如颜色匹配的抓取放置和顺序堆叠任务。数据以Parquet格式存储任务执行记录，辅以JSONL文件记录元数据，并配备多视角视频记录以增强模型对空间关系的理解。

使用方法

使用该数据集需通过LeRobot代码库的专用接口加载，安装smolvla扩展组件后，可配置训练参数启动模型训练流程。关键操作包括任务索引与样本的显式映射处理，需在数据加载器中手动建立episode_index与task_index的对应关系。训练过程中建议启用视频数据下载选项以获取完整多模态输入，同时注意代码库需指定v2.1分支版本以确保兼容性。评估频率与检查点保存间隔可根据计算资源灵活调整。

背景与挑战

背景概述

svla_koch_pickplace_and_stacking数据集由Lebotica团队在LeRobot Worldwide Hackathon期间创建，旨在为结构化机器人操作任务提供训练数据。该数据集包含82个任务和2条指令，主要用于训练SmolVLA模型，以提升其在机器人抓取和堆叠任务中的表现。数据集的设计反映了当前机器人操作领域对高效、多样化训练数据的需求，为相关研究提供了宝贵的资源。其创建背景与机器人操作任务的复杂性和多样性密切相关，推动了机器人学习领域的发展。

当前挑战

该数据集面临的挑战主要包括两个方面：首先，在领域问题方面，机器人抓取和堆叠任务需要处理复杂的物理交互和多模态感知，这对模型的泛化能力和鲁棒性提出了较高要求。其次，在构建过程中，数据集的创建需要精确的任务设计和数据采集，确保每个任务指令的多样性和可执行性。此外，数据集的规模相对较小，可能限制了模型的训练效果，如何扩展数据集的多样性和规模是未来需要解决的问题。

常用场景

经典使用场景

在机器人操作领域，svla_koch_pickplace_and_stacking数据集为结构化机器人操作任务提供了丰富的训练样本。该数据集包含82个任务和2种指令，特别适用于训练视觉语言动作模型（SmolVLA）。其经典使用场景包括机器人抓取放置任务和堆叠任务，通过多样化的颜色和位置组合，为模型提供了广泛的训练数据。

解决学术问题

该数据集解决了机器人操作任务中缺乏结构化指令和多样化训练样本的学术问题。通过提供详细的抓取放置和堆叠任务指令，数据集为视觉语言动作模型的研究提供了坚实的基础。这不仅推动了机器人操作任务的自动化研究，还为多模态学习领域的发展提供了重要支持。

实际应用

在实际应用中，svla_koch_pickplace_and_stacking数据集可用于训练工业机器人执行复杂的抓取和堆叠任务。例如，在自动化仓储和物流系统中，训练后的模型可以高效地完成物品的分类和堆叠，显著提升操作效率和准确性。

数据集最近研究