joshkrak/smolvla_red_brick_cup_v2

Name: joshkrak/smolvla_red_brick_cup_v2
Creator: joshkrak
Published: 2026-04-10 17:21:46
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/joshkrak/smolvla_red_brick_cup_v2

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=joshkrak/smolvla_red_brick_cup_v2"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "so_follower", "total_episodes": 200, "total_frames": 94202, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 30, "splits": { "train": "0:200" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "action": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.state": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.images.camera1": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.camera2": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

joshkrak

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，smolvla_red_brick_cup_v2数据集依托LeRobot框架构建而成。该数据集通过so_follower型机器人执行单一任务，采集了200个完整的情节，总计94202帧数据，以30帧每秒的速率记录。数据以分块形式组织，每块包含1000个数据点，并以Parquet格式存储，同时配套保存了AV1编码的视觉视频流，确保了数据的高效性与完整性。

特点

该数据集的特点在于其多模态数据的深度融合，不仅包含机器人六自由度关节的位置状态与动作指令，还整合了双摄像头采集的480x640分辨率RGB图像流。数据结构设计严谨，每个数据点均附有时间戳、帧索引与情节索引，支持精确的时间序列分析。其统一的特征命名与形状规范，为机器人模仿学习与视觉运动策略研究提供了标准化、可扩展的数据基础。

使用方法

研究人员可通过HuggingFace平台直接访问该数据集，利用其预定义的数据路径加载Parquet文件及对应视频。数据集适用于训练端到端的机器人控制模型，用户可结合观察状态与图像输入，预测关节动作以实现任务模仿。数据已划分为训练集，涵盖全部200个情节，支持批量读取与流式处理，便于集成到现代机器学习流程中进行策略优化与行为克隆实验。

背景与挑战

背景概述

在机器人学习领域，模仿学习与视觉语言动作模型的发展亟需高质量、大规模的真实世界交互数据集。smolvla_red_brick_cup_v2数据集应运而生，由HuggingFace的LeRobot项目团队构建，旨在为机器人操作任务提供丰富的多模态演示数据。该数据集聚焦于单一任务场景，记录了机械臂在结构化环境中执行抓取与放置操作的完整轨迹，包含关节状态、双视角视觉观测及精确的时间戳信息。其设计遵循现代机器人数据集的标准化格式，通过高帧率视频与同步动作序列，为训练端到端的视觉动作策略模型奠定了坚实基础，推动了机器人泛化能力与自主决策的研究进程。

当前挑战

该数据集致力于解决机器人操作中的视觉动作映射挑战，即如何从高维视觉输入中学习精确、鲁棒的低维动作策略。具体而言，模型需克服视觉观测中的光照变化、遮挡干扰以及动作空间的连续控制精度问题。在构建过程中，挑战主要集中于数据采集的同步性与一致性，确保双摄像头视频流与机械臂关节状态在时间维度上严格对齐。此外，大规模视频数据的存储、压缩与高效读取亦构成技术瓶颈，需在保持视觉质量的同时优化存储开销，以支持大规模分布式训练流程。

常用场景

经典使用场景

在机器人学习领域，smolvla_red_brick_cup_v2数据集为视觉语言动作模型的训练提供了关键支持。该数据集通过记录机械臂执行单一任务（如抓取红色砖块或杯子）的过程，包含了丰富的多模态数据，包括关节位置状态和双视角视觉信息。研究者通常利用这些序列数据，训练模型学习从视觉观察到动作执行的映射关系，从而推动机器人模仿学习与策略泛化能力的发展。

解决学术问题

该数据集有效应对了机器人学习中数据稀缺与多模态对齐的挑战。通过提供大规模、结构化的真实世界交互数据，它助力解决视觉运动控制中的样本效率问题，并支持研究跨模态表示学习。其意义在于为端到端机器人策略学习提供了基准，促进了模仿学习、强化学习等方法的实证比较，加速了通用机器人智能体的探索进程。

衍生相关工作

围绕该数据集，已衍生出一系列专注于视觉语言动作模型的经典研究工作。例如，基于LeRobot框架的后续项目常利用此类数据进行策略预训练与微调，探索多任务学习与零样本泛化。这些工作不仅提升了机器人对开放指令的理解能力，也为构建大规模机器人行为数据集社区奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集