seriintan/pick_scissor_v2_clean

Name: seriintan/pick_scissor_v2_clean
Creator: seriintan
Published: 2026-04-25 07:57:47
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/seriintan/pick_scissor_v2_clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集包含60个episodes，15082帧，1个任务。数据文件格式为parquet，视频文件格式为mp4。特征包括动作（6个关节位置）、观察状态（6个关节位置）、前视图像（480x640x3）、时间戳、帧索引、episode索引等。数据集的fps为30，总数据文件大小为100MB，视频文件大小为200MB。

This dataset was created using LeRobot and is primarily used in the field of robotics. It contains 60 episodes, 15082 frames, and 1 task. The data files are in parquet format, and the video files are in mp4 format. Features include actions (6 joint positions), observation states (6 joint positions), front-view images (480x640x3), timestamps, frame indices, episode indices, etc. The dataset has an fps of 30, with a total data file size of 100MB and a video file size of 200MB.

提供机构：

seriintan

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据采集的精细程度直接影响着策略学习的质量。该数据集依托LeRobot框架构建，基于so_follower机器人平台，通过遥操作手段采集了60个完整演示片段，共计15082帧数据，专一针对“拾取剪刀”这一任务场景。数据以1000帧为单位进行分块存储，每个块内包含Parquet格式的传感器时序数据和MP4格式的视觉视频，确保了大规模序列数据的高效组织与存取。

特点

该数据集的核心特色在于其多模态信息的高度同步与结构化设计。它同时记录了6维关节空间的动作指令与关节状态，以及由前视摄像头以30帧每秒采集的480×640分辨率彩色视频。视频采用AV1编码以平衡画质与存储效率。全部60个片段构成了统一的训练集，无额外验证或测试划分，且数据许可证为Apache-2.0，便于研究者直接用作模仿学习或强化学习的标准入门数据。

使用方法

使用者可借助LeRobot生态体系加载该数据集，通过指定config_name为default来读取data目录下的所有Parquet分片文件。每条数据样本提供了完整的观测（状态与图像）、动作指令、时间戳以及帧索引信息。前视图像已被编码为视频格式，在训练时可直接利用LeRobot内置的解码模块进行实时解码，从而高效地构造用于策略学习的观测-动作对序列。

背景与挑战

背景概述

在机器人操作领域，模仿学习依赖于高质量、标准化的数据集来训练策略网络以完成精确抓取等任务。pick_scissor_v2_clean 数据集由 seriintan 团队于近年创建，基于 LeRobot 框架构建，专注于单任务“拿起剪刀”的精细操作。该数据集包含 60 个演示回合、共计 15082 帧，记录了机器人从肩部到夹爪共 6 自由度的关节动作与状态，同时提供 640×480 的前视角视频流，为视觉-运动联合建模提供了对齐的时空样本。其公开的 Apache-2.0 许可降低了社区复现门槛，推动了细粒度操作任务中数据集标准化与可对比性研究的发展。

当前挑战

该数据集所解决的领域挑战在于机器人精细抓取任务中动作-视觉耦合的稀疏性与多模态对齐难题：仅 6 维关节空间难以覆盖复杂接触动力学，而单个固定视角的视频流可能遮挡局部交互细节。构建过程中，团队面临环境光照变化、剪刀姿态多样性及演示者变体引入的噪声，需在仅 60 个回合的小样本下保证动作序列的时序一致性。此外，利用 LeRobot 框架整合时需处理不同采样率的传感器数据同步，并通过数据清洗剔除异常轨迹，最终在有限的 100 MB 主数据与 200 MB 视频中实现高效率表征，这对未来大容量、多视角、多任务数据集的构建提出了扩展性挑战。

常用场景

经典使用场景

在机器人操作研究的前沿领域中，pick_scissor_v2_clean数据集为基于视觉与状态信息的物体抓取任务提供了标准化的训练与评估平台。该数据集包含了60个完整演示片段，共计超过15000帧序列，记录了SO-5协作机械臂执行剪刀拾取操作的全过程。研究者可充分利用其同步采集的6维关节状态轨迹与高保真视频图像，构建端到端的模仿学习模型或强化学习策略，以提升机器人对复杂几何形状物体的精细操作能力。数据集划分明确的训练集结构，以及统一的parquet与mp4文件存储格式，极大降低了多模态数据处理的复杂度，使其成为复现和比较各类机器人操作算法的理想基准。

衍生相关工作

围绕pick_scissor_v2_clean数据集，一系列里程碑式的研究工作得以催生与验证。基于LeRobot框架的广泛应用，该数据集常被用于测试全新的视觉动作预测网络架构，如扩散策略（Diffusion Policy）和行为Transformer，这些模型借助数据集中丰富的轨迹信息，在复杂接触性操作任务中展现出卓越的动作生成能力。同时，该数据集也为多视角视觉表征学习、跨机械臂配置的迁移学习以及基于关键点检测的精细操作提供了重要的训练案例。此外，结合数据集内的6维状态与图像流，部分研究者衍生出高效的数据增强技术及延迟补偿机制，显著提升了策略在真实物理环境下的鲁棒性与实时性，推动了机器人学习领域从仿真到现实的跨越。

数据集最近研究