seriintan/pick_scissor_v4_150ep

Name: seriintan/pick_scissor_v4_150ep
Creator: seriintan
Published: 2026-04-30 09:37:02
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/seriintan/pick_scissor_v4_150ep

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人技术相关数据集，由LeRobot项目创建。数据集包含150个episodes，共32401帧数据，帧率为30fps。数据以parquet格式存储，包含动作、状态观测、图像观测（正面和侧面视角）、时间戳、帧索引、episode索引等信息。数据集的结构和特征在meta/info.json中有详细描述。

This dataset is a robotics-related dataset created by the LeRobot project. It contains 150 episodes with a total of 32,401 frames at 30fps. The data is stored in parquet format and includes actions, state observations, image observations (front and side views), timestamps, frame indices, episode indices, etc. The structure and features of the dataset are described in detail in meta/info.json.

提供机构：

seriintan

搜集汇总

数据集介绍

构建方式

本数据集基于LeRobot框架构建，专注于机器人抓取剪刀的操作任务，共包含150个演示回合，总计32401帧数据，所有数据均来源于同一机器人平台so_follower，并以30帧每秒的采样频率记录。数据分为动作序列与观测状态两大部分，其中动作数据以6维浮点向量记录机器人关节与夹爪的位置指令，观测状态则同步记录对应的关节位置信息，同时采集了正面与侧面两个视角的640×480分辨率RGB视频流，采用AV1编码压缩存储，确保视觉信息的完整性与存储效率。数据集按1000帧为一个块进行分块组织，采用Parquet格式存储结构化数据，视频则按视角分类存放于独立目录，便于高效读取与加载。

特点

该数据集的核心特点在于其多模态同步记录与精细化的结构设计。动作与状态数据均覆盖肩部、肘部、腕部及夹爪共6个自由度，实现了对操作全过程的高精度刻画。双视角视频流（正面与侧面）以AV1编码压缩，在保持画质的同时有效控制存储占用。数据集总大小约300MB，其中视频部分占200MB，结构数据占100MB，规模适中，适合快速训练与验证。此外，完整的数据元信息（如时间戳、帧索引、回合索引）被纳入记录，便于基于回合或时间维度的灵活检索，且所有150个回合均划分为训练集，无需手动拆分。

使用方法

使用者可通过LeRobot工具包直接加载该数据集，利用其提供的标准API快速获取动作、状态与图像数据，适用于模仿学习与机器人操作技能学习场景。加载时需指定数据集名称'seriintan/pick_scissor_v4_150ep'，并利用LeRobot内置的数据加载器自动解析Parquet文件与MP4视频。数据集内预定义了'action'、'observation.state'与'observation.images.front/side'等关键特征字段，便于直接构建训练输入与标签。双视角图像可分别用于训练多视角融合模型，或作为单一视角输入以简化模型架构。此外，结合Hugging Face Spaces上的可视化界面，用户可直观浏览各回合的演示视频与状态序列，便于数据质量检查与任务分析。

背景与挑战

背景概述

在机器人学习领域，模仿学习作为让机器人从人类示教中获取技能的关键范式，对高质量、多模态演示数据的需求日益迫切。pick_scissor_v4_150ep数据集由研究团队基于LeRobot框架构建于近期，其核心研究问题聚焦于通过高分辨率视觉输入与低维状态信息的协同，实现机器人对剪刀这一精细物体的精准拾取操作。数据集包含150个完整演示片段，累计超过32000帧，以30帧/秒的频率记录前向与侧向的双视角视频，并结合六维机械臂关节与夹爪状态，为学习复杂操作策略提供了结构化的训练资源。该数据集的出现填补了精细操作领域公开数据集的空白，推动了以数据驱动方式验证模仿学习算法在真实机器人场景中泛化性能的进程，对机器人操作技能迁移研究具有显著的推动价值。

当前挑战

pick_scissor_v4_150ep数据集所解决的领域挑战在于实现机器人在非结构化环境中对微小或形状不规则物体的可靠拾取，这要求算法能从多模态演示中泛化出鲁棒的动作策略，而现有方法常因数据量有限或视角单一导致失败。构建过程中，研究者面临的主要挑战包括：1) 如何设计高分辨率的同步视频采集方案以捕捉剪刀在空间中的细微位姿变化；2) 如何在150个演示中平衡人类示教的多样性，防止策略因数据偏差而过拟合于特定摆放角度或抓取模式；3) 大规模parquet与av1视频数据的存储与高效索引，这要求在数据压缩率与回放保真度之间做出合理权衡。

常用场景

经典使用场景

在机器人学习与模仿学习领域，pick_scissor_v4_150ep数据集为研究精细操作技能提供了宝贵的资源。该数据集由LeRobot框架生成，记录了SO_Follower机器人在执行剪刀拾取任务时的完整轨迹，涵盖150个训练回合、超过3.2万帧的高频时序数据。其核心用途在于训练基于视觉与状态信息的策略网络，使机器人能够从多角度摄像头输入中理解环境，并输出精确的六自由度关节动作。这一场景聚焦于行为克隆与逆强化学习范式，通过将专家演示映射为通用策略，推动灵巧操作在非结构化场景中的泛化能力提升。

衍生相关工作

围绕该数据集衍生出多项经典工作，包括基于扩散策略的精细动作生成方法，该研究成果利用数据集中的高频时序信息实现了比传统高斯混合模型更平滑的轨迹规划。另有工作探索了跨任务域迁移学习，通过将此数据集与同构机器人其他任务数据混合训练，验证了视觉特征在机器人操作中的可迁移性。此外，数据集还催生了针对策略不确定性量化的研究，研究者利用其多回合重复性采样特性，建立了在动态环境下评估模型鲁棒性的新范式。

数据集最近研究