KoukiHagiwara/slide_push_pull_v3
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/KoukiHagiwara/slide_push_pull_v3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,主要用于机器人技术研究。数据集包含50个episodes,共52400帧,涉及1个任务。数据文件大小为100MB,视频文件大小为200MB。数据集包含机器人状态(如肩部、肘部、腕部等位置信息)、动作数据(如肩部、肘部、腕部等位置控制)、顶部摄像头和腕部摄像头的视频数据(分辨率480x640,30fps)等多种特征。数据格式为parquet和mp4,适用于机器人控制和视觉任务的研究。
This dataset was created using LeRobot and is primarily used for robotics research. It contains 50 episodes, totaling 52,400 frames, and involves 1 task. The data files are 100MB in size, and the video files are 200MB. The dataset includes various features such as robot state (e.g., shoulder, elbow, wrist positions), action data (e.g., shoulder, elbow, wrist position controls), and video data from top and wrist cameras (resolution 480x640, 30fps). The data formats are parquet and mp4, making it suitable for research in robot control and vision tasks.
提供机构:
KoukiHagiwara
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量的数据集是推动具身智能发展的关键基石。slide_push_pull_v3数据集基于LeRobot框架构建,利用so_follower机器人平台,通过遥操作或示教方式采集了50个演示回合,共计52400帧时序数据,涵盖单任务情境下的滑动、推拉等操作行为。数据以Parquet格式存储,辅以尺寸为480×640的AV1编码视频,分别来自顶部相机与腕部相机,提供了丰富的视觉与运动学信息。
特点
该数据集的一个显著特点在于其结构化的多模态特征设计。动作与观测状态均为六维浮点向量,对应肩关节、肘关节、腕部及夹爪的自由度,确保了运动控制数据的精确性与一致性。双视角视频记录不仅保留了环境与工具交互的全局视场,还通过腕部相机捕捉了末端执行器的细微操作。数据以30帧每秒的采样率组织,并采用分块存储策略,每块包含1000帧,便于高效加载与流式处理。
使用方法
研究者可借助LeRobot库便捷地加载该数据集,通过指定配置名'default'即可自动获取Parquet数据文件与关联视频。数据已预设训练集划分(0至50个回合),可直接用于模仿学习或行为克隆模型的训练。利用提供的'action'与'observation.state'字段作为预测目标与输入特征,结合双摄像头视觉观测,可有效训练机器人策略网络。此外,数据集的元信息(如帧索引、时间戳)支持时序建模与回放验证。
背景与挑战
背景概述
在机器人学习领域,如何让机械臂通过示教学习完成精细的推拉操作任务,一直是研究的热点与难点。slide_push_pull_v3数据集由KoukiHagiwara于近期创建,基于Hugging Face的LeRobot框架构建,旨在为机器人模仿学习提供高质量的行为克隆数据。该数据集聚焦于单一任务——滑动推拉操作,采用so_follower型机器人采集,包含50个完整轨迹片段,总计52400帧数据,并通过顶部与腕部双摄像头以30帧/秒的AV1编码视频记录环境与末端执行器状态。作为开源社区在机器人数据集标准化方面的重要尝试,它推动了可复现的机器人学习研究,尤其为低成本、易部署的操作技能迁移提供了基础资源。
当前挑战
该数据集所应对的核心挑战在于机器人精细操作中的行为复现与泛化能力不足。推拉动作涉及空间感知与力位耦合,传统模型易受物体初始位置、摩擦力等干扰而性能退化。构建过程中,数据采集受限于50个轨迹的规模,难以覆盖真实世界的姿态多样性;同时,仅单一任务配置限制了多技能联合学习的可能性。此外,基于LeRobot框架的parquet与视频编码格式虽便于存储,却引入了解码与数据加载效率的瓶颈,对实时训练构成挑战。未来需在扩大轨迹数量、引入多任务场景及优化数据流水线方面持续突破。
常用场景
经典使用场景
在机器人学习研究领域,slide_push_pull_v3数据集以其精细记录的推拉滑动操作而备受瞩目。该数据集依托SO-Follower机器人平台,通过顶置与腕部双摄像头视角,以30帧每秒的速率捕捉了50个完整推拉动作共52400帧的视觉与关节状态信息。研究者常将其作为模仿学习与行为克隆的基准数据集,训练机器人从高维观测空间直接映射至六自由度动作指令,特别适用于需要精细接触力控制的推、拉、滑动等连续操作技能的习得。
实际应用
在实际工业与生活场景中,该数据集训练的策略可直接迁移至物料分拣、工件推送等流水线任务,例如引导机器人手臂将精密元件沿导轨推送到指定位置,或从堆叠物料中轻柔拉出目标部件。在服务机器人领域,习得的推拉技能可用于协助轮椅用户拉开门窗、推动餐桌上的餐具,或辅助老年人完成抽屉开合等日常操作。顶置与腕部摄像头的双重感知配置使得机器人即使在遮挡或光照变化环境下,也能通过多视角融合维持操作的鲁棒性。
衍生相关工作
围绕slide_push_pull_v3衍生的经典工作包括基于扩散策略的接触力平滑生成方法,该方法利用数据集中的轨迹分布特性,学习从杂乱桌面状态至稳定推拉路径的扩散生成模型。另一类代表性工作是跨形态迁移学习框架,研究者通过本数据集的SO-Follower平台数据与不同构型机器人所采集同类操作的对齐,验证了推拉技能在关节空间与任务空间中的可迁移性。此外,该数据集还被用于多任务奖励建模,通过对比推拉、滑动等动作模式中的接触模态差异,推动了基于触觉线索的无模型操作控制研究。
以上内容由遇见数据集搜集并总结生成



