nc8304/eval01_smolvla-phase-split_01
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/nc8304/eval01_smolvla-phase-split_01
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的机器人数据集,包含25个episodes,23516帧,1个任务。数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据集结构包括动作、观察状态、相机图像、时间戳、帧索引、episode索引和任务索引等特征。动作和观察状态特征包括6个关节位置(shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos)。相机图像特征为480x640x3的视频,编码为av1,格式为yuv420p,无音频。
This dataset is a robotics dataset created using LeRobot, containing 25 episodes, 23516 frames, and 1 task. The data files size is 100MB, and the video files size is 200MB, with a frame rate of 30fps. The dataset structure includes features such as action, observation state, camera images, timestamps, frame indices, episode indices, and task indices. The action and observation state features include 6 joint positions (shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos). The camera image feature is a 480x640x3 video encoded in av1, with a yuv420p format and no audio.
提供机构:
nc8304
搜集汇总
数据集介绍

构建方式
该数据集依托于LeRobot开源框架构建,专为机器人学习与模仿学习领域设计。数据采集以so_follower型机器人为平台,通过遥操作或预设策略驱动,记录25段完整的操作轨迹,总计包含23516帧时序数据。每帧数据同步捕获六维关节角度动作指令、对应状态观测值、640×480分辨率的视觉图像(AV1编码,30 FPS)以及时间戳、帧序号、任务索引等结构化元信息。数据以Parquet格式分块存储于“data”目录,视频文件则独立存放于“videos”子目录中,均按1000帧为单元进行分块,确保高效加载与流式处理。
使用方法
数据集可通过HuggingFace的datasets库结合LeRobot工具链直接加载。用户只需调用`lerobot.common.datasets.lerobot_dataset.LeRobotDataset`类,并指定仓库名称“nc8304/eval01_smolvla-phase-split_01”即可自动下载并解析分块数据。返回的Dataset对象包含“observation.images.camera1”、“observation.state”、“action”等关键字段,可用于训练基于视觉的运动策略模型。此外,HuggingFace提供在线可视化空间,允许用户在浏览器中逐帧回放机器人的操作过程,极大降低了数据预览与验证的门槛。
背景与挑战
背景概述
eval01_smolvla-phase-split_01数据集诞生于机器人学习领域对高效、标准化数据采集与训练流程的迫切需求之中。由研究团队基于LeRobot框架创建,该数据集聚焦于单任务(so_follower机器人)的精细动作控制,包含25个完整回合、超过23000帧的高频(30FPS)观测数据,涵盖6维关节状态与视觉图像信息。其设计初衷在于为视觉-语言-动作模型(VLA)提供结构化、可复现的演示数据,助力机器人从人类示范中习得复杂操作技能。作为LeRobot生态中的评测子集,该数据集的发布推动了机器人模仿学习从单一环境向可量化、可对比的标准化评估的演进,为后续多任务泛化与零样本迁移研究奠定了基石。
当前挑战
该数据集所应对的核心挑战源于机器人操作中数据维度与多模态融合的复杂性。在领域层面,它试图解决模仿学习中示范数据的高效利用问题,即如何从有限回合中提取鲁棒的动作策略,以应对环境动态变化。在构建过程中,挑战体现在高保真视频与精确运动轨迹的同步捕获上,需确保相机(640×480@30fps)与关节传感器在时序上严格对齐,且数据存储格式需兼容LeRobot的v3.0协议以支持大规模分布式训练。此外,单一任务(6自由度操纵)的数据香农熵较低,如何避免过拟合并保证模型在相位拆分后的泛化能力,是后续研究亟待破解的瓶颈。
常用场景
经典使用场景
在机器人操作与模仿学习领域,eval01_smolvla-phase-split_01数据集凭借其精细的结构化设计,成为训练和评估视觉-语言-动作(VLA)模型行为克隆能力的经典基准。该数据集收录了由so_follower机器人执行单一任务的25个完整演示片段,总计超过23000帧高分辨率图像与同步记录的六维关节空间动作序列(包括肩部、肘部、腕部及夹爪位置)。研究者可借此将原始观测图像与机器人状态映射至连续动作空间,为端到端模仿学习提供标准化的训练与验证环境。
解决学术问题
该数据集直击机器人学习领域中跨模态动作泛化与因果推理的核心难题。通过提供每一时刻的视觉观测、本体感知状态与专家动作的密集对齐样本,它使学术研究得以探索如何从有限演示中提取可迁移的操作策略,并验证模型在未见场景下的零样本适应能力。同时,数据集中明确的动作空间表示(如6维连续控制)促进了关于联合空间与任务空间解耦的讨论,为揭示视觉特征与运动控制间的潜在因果关系铺平了道路,推动了具身智能体脱离仿真环境、迈向真实世界操作的理论基石。
实际应用
在实际应用层面,该数据集赋能了精密装配、柔性抓取与协作操作等工业场景。例如,基于其高质量的关节轨迹与图像数据,开发人员可训练机器人系统在动态环境中执行高精度零件插装或易损物品的轻柔抓取任务。数据集中规范的parquet与视频存储格式亦便于在生产线上快速部署在线策略,通过实时流式处理历史帧与当前观测生成安全动作指令,显著缩短了从实验室原型到工厂落地的转化周期。
数据集最近研究
最新研究方向
在机器人学习领域,该数据集聚焦于通过视觉-语言-动作(VLA)范式推动具身智能体的技能习得,尤其是基于模仿学习的细粒度操作能力。其结构化的动作与状态特征(如六自由度关节控制)结合高帧率视频数据,为研究多模态感知与连续控制策略的协同优化提供了基准。近期热点围绕利用此类数据集训练通用机器人基础模型,探索如何将小规模、任务特定的演示数据泛化至复杂动态环境,从而加速工业自动化与家庭服务机器人的实用化进程,彰显了数据驱动范式从仿真向真实场景迁移的变革性意义。
以上内容由遇见数据集搜集并总结生成



