so101_ball_box_v4_release

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/Nykenox/so101_ball_box_v4_release

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过LeRobot创建，专用于机器人技术的研究和应用。它包含67个episodes，总计55004帧数据，帧率为30fps。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为200MB。数据集特征包括：动作数据（含6个关节位置）、观察状态（含6个关节位置）、顶部和腕部摄像头拍摄的视频数据（分辨率为480x640，3通道），以及时间戳、帧索引、episode索引等元数据。视频数据采用av1编码，yuv420p像素格式，无音频。适用于机器人控制、行为模仿等任务。

This dataset is created via LeRobot and is primarily used for robotics-related research and applications. It contains 67 episodes, totaling 55,004 frames of data with a frame rate of 30fps. The data is stored in parquet format, with a total data file size of 100MB and a video file size of 200MB. The dataset includes various features such as action data (including 6 joint positions), observation states (also including 6 joint positions), video data from top and wrist cameras (resolution 480x640, 3 channels), and metadata like timestamps, frame indices, and episode indices. The video data uses av1 encoding, yuv420p pixel format, and no audio. It is suitable for tasks like robot control and behavior imitation.

创建时间：

2026-05-04

原始信息汇总

数据集概述

数据集名称: so101_ball_box_v4_release
数据集地址: https://huggingface.co/datasets/Nykenox/so101_ball_box_v4_release
许可证: Apache-2.0
任务类别: 机器人学（Robotics）
标签: LeRobot

数据集详情

基本信息

机器人类型: so_follower
总片段数: 67
总帧数: 55004
总任务数: 1
分块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 fps

数据分割

训练集: 片段索引 0 到 66（全部 67 个片段用于训练）

数据结构

特征（Features）

特征名称	数据类型	形状	描述
action	float32	(6,)	包含肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置的6维动作向量
observation.state	float32	(6,)	与动作向量结构一致的6维状态观测
observation.images.top	video	(480, 640, 3)	顶部摄像头视频，分辨率480×640，30fps，AV1编码
observation.images.wrist	video	(480, 640, 3)	腕部摄像头视频，分辨率480×640，30fps，AV1编码
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	索引
task_index	int64	(1,)	任务索引

数据路径

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

备注

该数据集使用 LeRobot 框架创建。

搜集汇总

数据集介绍

构建方式

so101_ball_box_v4_release数据集是面向机器人模仿学习研究领域的重要资源，由LeRobot框架构建而成。该数据集通过操控“so_follower”型机器人执行抓取与放置球体的单一任务，共收录67个演示回合（episode），累积55004帧时序数据。数据以parquet格式存储动作序列与状态观测，同时包含来自顶部和腕部两个视角的高清视频流（480×640分辨率，30帧/秒），这些视频采用AV1编码压缩以平衡质量与存储效率。整体数据被切分为多个大小为1000帧的数据块，便于分布式加载与训练。

特点

该数据集的核心特色在于其多模态、高保真的数据采集设计。六维动作向量与状态空间一一对应，涵盖肩部、肘部、腕部及夹爪的关节位置，提供了精细的操控细节。双摄像头配置——顶部全局视角与腕部第一人称视角——使得模型能够同时理解环境布局与末端执行器的微观操作，这对于复杂灵巧任务的模仿学习至关重要。此外，数据已按标准的训练集划分（所有回合均用于训练），并附带统一的LeRobot格式索引，方便研究者直接用于策略学习。

使用方法

使用者可借助LeRobot库便捷地加载与处理该数据集。通过指定数据集标识符‘Nykenox/so101_ball_box_v4_release’，调用LeRobot的数据加载接口即可自动解析parquet文件与关联视频。数据特征中包含‘action’（动作指令）、‘observation.state’（机器人本体状态）以及‘observation.images.top/wrist’（图像观测），这些字段可直接输入到模仿学习或离线强化学习算法中。建议先利用LeRobot的在线可视化工具（Hugging Face Space）预览演示片段，以理解任务细节，再结合‘chunks_size’参数进行分块迭代训练，高效利用100MB的数据文件与200MB的视频数据。

背景与挑战

背景概述

在机器人操作领域，模仿学习依赖于高质量、多模态的演示数据来训练精确的操控策略。so101_ball_box_v4_release数据集由Nykenox基于LeRobot框架创建，发布于Apache-2.0许可下，存储于HuggingFace平台，旨在为六自由度（6-DOF）机械臂的抓取与放置任务提供标准化的训练基准。该数据集包含67个演示片段，总计超过55,000帧，以30帧/秒采集自一个名为so_follower的机器人平台，记录了将球体放入特定盒子的单一任务。其核心研究问题聚焦于如何通过融合顶部和腕部双视角视频流与六维关节状态、动作信息，实现稳健的视觉运动策略学习。作为LeRobot生态系统的一部分，该数据集填补了低成本、可复现的机械臂操作基准的空白，为机器人社区在策略泛化、数据效率及实时控制等方向的研究提供了宝贵资源，尤其推动了基于视觉的模仿学习在结构化环境中的实际应用。

当前挑战

该数据集所解决的领域挑战在于，机器人抓取与放置任务中，状态与动作空间的高维连续性以及视觉观测中的部分遮挡、光照变化等问题，使得从有限演示中学习泛化性策略极为困难。构建过程中，数据集面临多重技术挑战：首先，同步采集来自两个摄像头（顶部与腕部）的高分辨率视频流、六个关节的精确位置与动作指令，需保证时间戳严格对齐；其次，每个演示片段时长超过800帧，总容量达300MB，对数据存储与读取效率提出高要求；最后，单一任务（球入盒）的67条轨迹在动作空间上分布不均，可能引入策略偏差。此外，缺乏成文的论文与主页文档，导致数据采集的硬件设定、校准流程及真实环境细节尚未公开，复现与扩展研究面临障碍。

常用场景

经典使用场景

在机器人学习与自主操作领域，so101_ball_box_v4_release数据集为模仿学习算法的训练与验证提供了标准化的基准。该数据集记录了机械臂执行将小球放入盒子这一精细操作任务的完整轨迹，包含67个回合共55004帧数据，每帧均以30帧/秒的速率采集了顶部与腕部两个视角的视觉图像，以及六维关节状态与动作序列。研究者通常利用该数据集训练行为克隆、逆强化学习或基于扩散策略的模型，使机器人能够从人类示教中习得准确抓取、定向移动与释放目标的连贯动作，是验证视觉运动策略泛化能力的经典平台。

衍生相关工作

围绕该数据集，学术界已衍生出一系列开创性工作。许多研究者以该数据为基座，发展了基于Transformer的端到端操作模型，如将视觉特征与动作历史联合编码的架构，有效提升了长程任务的完成率。同时，利用数据集中多视角视频，涌现出将对比学习与逆动力学模型结合的工作，实现了无监督状态表示提取。部分工作还专注于数据增强与域随机化技术，将模拟环境中的合成数据与真实样本混训，以缓解数据量有限的瓶颈，这些衍生研究共同构成了现代机器人模仿学习领域蓬勃发展的实证基础。

数据集最近研究