joshkrak/smolvla_red_brick_cup_v2
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/joshkrak/smolvla_red_brick_cup_v2
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
<a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=joshkrak/smolvla_red_brick_cup_v2">
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/>
<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/>
</a>
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "so_follower",
"total_episodes": 200,
"total_frames": 94202,
"total_tasks": 1,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200,
"fps": 30,
"splits": {
"train": "0:200"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"action": {
"dtype": "float32",
"names": [
"shoulder_pan.pos",
"shoulder_lift.pos",
"elbow_flex.pos",
"wrist_flex.pos",
"wrist_roll.pos",
"gripper.pos"
],
"shape": [
6
]
},
"observation.state": {
"dtype": "float32",
"names": [
"shoulder_pan.pos",
"shoulder_lift.pos",
"elbow_flex.pos",
"wrist_flex.pos",
"wrist_roll.pos",
"gripper.pos"
],
"shape": [
6
]
},
"observation.images.camera1": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.camera2": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
提供机构:
joshkrak
搜集汇总
数据集介绍

构建方式
在机器人操作任务的数据采集领域,smolvla_red_brick_cup_v2数据集依托LeRobot框架构建而成。该数据集通过so_follower型机器人执行单一任务,采集了200个完整的情节,总计94202帧数据,以30帧每秒的速率记录。数据以分块形式组织,每块包含1000个数据点,并以Parquet格式存储,同时配套保存了AV1编码的视觉视频流,确保了数据的高效性与完整性。
特点
该数据集的特点在于其多模态数据的深度融合,不仅包含机器人六自由度关节的位置状态与动作指令,还整合了双摄像头采集的480x640分辨率RGB图像流。数据结构设计严谨,每个数据点均附有时间戳、帧索引与情节索引,支持精确的时间序列分析。其统一的特征命名与形状规范,为机器人模仿学习与视觉运动策略研究提供了标准化、可扩展的数据基础。
使用方法
研究人员可通过HuggingFace平台直接访问该数据集,利用其预定义的数据路径加载Parquet文件及对应视频。数据集适用于训练端到端的机器人控制模型,用户可结合观察状态与图像输入,预测关节动作以实现任务模仿。数据已划分为训练集,涵盖全部200个情节,支持批量读取与流式处理,便于集成到现代机器学习流程中进行策略优化与行为克隆实验。
背景与挑战
背景概述
在机器人学习领域,模仿学习与视觉语言动作模型的发展亟需高质量、大规模的真实世界交互数据集。smolvla_red_brick_cup_v2数据集应运而生,由HuggingFace的LeRobot项目团队构建,旨在为机器人操作任务提供丰富的多模态演示数据。该数据集聚焦于单一任务场景,记录了机械臂在结构化环境中执行抓取与放置操作的完整轨迹,包含关节状态、双视角视觉观测及精确的时间戳信息。其设计遵循现代机器人数据集的标准化格式,通过高帧率视频与同步动作序列,为训练端到端的视觉动作策略模型奠定了坚实基础,推动了机器人泛化能力与自主决策的研究进程。
当前挑战
该数据集致力于解决机器人操作中的视觉动作映射挑战,即如何从高维视觉输入中学习精确、鲁棒的低维动作策略。具体而言,模型需克服视觉观测中的光照变化、遮挡干扰以及动作空间的连续控制精度问题。在构建过程中,挑战主要集中于数据采集的同步性与一致性,确保双摄像头视频流与机械臂关节状态在时间维度上严格对齐。此外,大规模视频数据的存储、压缩与高效读取亦构成技术瓶颈,需在保持视觉质量的同时优化存储开销,以支持大规模分布式训练流程。
常用场景
经典使用场景
在机器人学习领域,smolvla_red_brick_cup_v2数据集为视觉语言动作模型的训练提供了关键支持。该数据集通过记录机械臂执行单一任务(如抓取红色砖块或杯子)的过程,包含了丰富的多模态数据,包括关节位置状态和双视角视觉信息。研究者通常利用这些序列数据,训练模型学习从视觉观察到动作执行的映射关系,从而推动机器人模仿学习与策略泛化能力的发展。
解决学术问题
该数据集有效应对了机器人学习中数据稀缺与多模态对齐的挑战。通过提供大规模、结构化的真实世界交互数据,它助力解决视觉运动控制中的样本效率问题,并支持研究跨模态表示学习。其意义在于为端到端机器人策略学习提供了基准,促进了模仿学习、强化学习等方法的实证比较,加速了通用机器人智能体的探索进程。
衍生相关工作
围绕该数据集,已衍生出一系列专注于视觉语言动作模型的经典研究工作。例如,基于LeRobot框架的后续项目常利用此类数据进行策略预训练与微调,探索多任务学习与零样本泛化。这些工作不仅提升了机器人对开放指令的理解能力,也为构建大规模机器人行为数据集社区奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



