five

joshkrak/smolvla_red_brick_cup_v2

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/joshkrak/smolvla_red_brick_cup_v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=joshkrak/smolvla_red_brick_cup_v2"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "so_follower", "total_episodes": 200, "total_frames": 94202, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 30, "splits": { "train": "0:200" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "action": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.state": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.images.camera1": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.camera2": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```
提供机构:
joshkrak
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作任务的数据采集领域,smolvla_red_brick_cup_v2数据集依托LeRobot框架构建而成。该数据集通过so_follower型机器人执行单一任务,采集了200个完整的情节,总计94202帧数据,以30帧每秒的速率记录。数据以分块形式组织,每块包含1000个数据点,并以Parquet格式存储,同时配套保存了AV1编码的视觉视频流,确保了数据的高效性与完整性。
特点
该数据集的特点在于其多模态数据的深度融合,不仅包含机器人六自由度关节的位置状态与动作指令,还整合了双摄像头采集的480x640分辨率RGB图像流。数据结构设计严谨,每个数据点均附有时间戳、帧索引与情节索引,支持精确的时间序列分析。其统一的特征命名与形状规范,为机器人模仿学习与视觉运动策略研究提供了标准化、可扩展的数据基础。
使用方法
研究人员可通过HuggingFace平台直接访问该数据集,利用其预定义的数据路径加载Parquet文件及对应视频。数据集适用于训练端到端的机器人控制模型,用户可结合观察状态与图像输入,预测关节动作以实现任务模仿。数据已划分为训练集,涵盖全部200个情节,支持批量读取与流式处理,便于集成到现代机器学习流程中进行策略优化与行为克隆实验。
背景与挑战
背景概述
在机器人学习领域,模仿学习与视觉语言动作模型的发展亟需高质量、大规模的真实世界交互数据集。smolvla_red_brick_cup_v2数据集应运而生,由HuggingFace的LeRobot项目团队构建,旨在为机器人操作任务提供丰富的多模态演示数据。该数据集聚焦于单一任务场景,记录了机械臂在结构化环境中执行抓取与放置操作的完整轨迹,包含关节状态、双视角视觉观测及精确的时间戳信息。其设计遵循现代机器人数据集的标准化格式,通过高帧率视频与同步动作序列,为训练端到端的视觉动作策略模型奠定了坚实基础,推动了机器人泛化能力与自主决策的研究进程。
当前挑战
该数据集致力于解决机器人操作中的视觉动作映射挑战,即如何从高维视觉输入中学习精确、鲁棒的低维动作策略。具体而言,模型需克服视觉观测中的光照变化、遮挡干扰以及动作空间的连续控制精度问题。在构建过程中,挑战主要集中于数据采集的同步性与一致性,确保双摄像头视频流与机械臂关节状态在时间维度上严格对齐。此外,大规模视频数据的存储、压缩与高效读取亦构成技术瓶颈,需在保持视觉质量的同时优化存储开销,以支持大规模分布式训练流程。
常用场景
经典使用场景
在机器人学习领域,smolvla_red_brick_cup_v2数据集为视觉语言动作模型的训练提供了关键支持。该数据集通过记录机械臂执行单一任务(如抓取红色砖块或杯子)的过程,包含了丰富的多模态数据,包括关节位置状态和双视角视觉信息。研究者通常利用这些序列数据,训练模型学习从视觉观察到动作执行的映射关系,从而推动机器人模仿学习与策略泛化能力的发展。
解决学术问题
该数据集有效应对了机器人学习中数据稀缺与多模态对齐的挑战。通过提供大规模、结构化的真实世界交互数据,它助力解决视觉运动控制中的样本效率问题,并支持研究跨模态表示学习。其意义在于为端到端机器人策略学习提供了基准,促进了模仿学习、强化学习等方法的实证比较,加速了通用机器人智能体的探索进程。
衍生相关工作
围绕该数据集,已衍生出一系列专注于视觉语言动作模型的经典研究工作。例如,基于LeRobot框架的后续项目常利用此类数据进行策略预训练与微调,探索多任务学习与零样本泛化。这些工作不仅提升了机器人对开放指令的理解能力,也为构建大规模机器人行为数据集社区奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作