press_button

Hugging Face2026-05-15 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/saipuneethgottam/press_button

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，是一个用于机器人学研究的演示数据集。数据集记录了so101_follower机器人的操作数据，包含25个完整的操作序列（episodes），总计10504帧数据，涉及1个任务。数据采用多模态形式存储，包括结构化状态数据和视觉观测数据。具体而言，每个数据点包含：机器人的6维关节位置动作指令（shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos）；对应的6维关节位置状态观测；以及来自三个摄像头的视觉观测，其中camera2和camera3提供720x1280分辨率的RGB视频，camera6提供480x640分辨率的RGB视频，所有视频帧率为30fps，采用AV1编码。此外，数据还包含时间戳、帧索引、episode索引、任务索引等元数据。数据集以分块Parquet文件格式组织，并配有对应的MP4视频文件，适用于机器人模仿学习、行为克隆、视觉运动策略学习等任务的研究与开发。

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

press_button数据集由LeRobot框架生成，专注采集机器人在按压按钮任务中的精细操作数据。数据收集依托so101_follower型机器人，通过远程操控或预设策略驱动6自由度机械臂（涵盖肩关节、肘关节、腕部及夹爪）执行单一任务，共记录25个任务片段（episodes），累计10,504帧操作序列。数据以30帧/秒的采样率存储，采用分块策略将原始观测与动作数据切割为容量1000帧的parquet文件，而多视角视频（含三组摄像头，分辨率涵盖480×640至720×1280）则以AV1编码压缩为mp4格式，与元数据共同构成完整的训练-验证分割（默认全部用于训练）。

特点

该数据集突出高维多模态特性，同步记录6维连续动作向量（关节位置变量）与对应观测状态，并提供三路异构视觉流：两个主摄像头捕捉720×1280分辨率的全局环境，一个辅助摄像头聚焦480×640的局部操作域。时间戳、帧索引与任务索引的精确标注使得时序对齐自然无隙，而30FPS的恒定帧率保障了运动平滑性。此外，数据集规模精巧（总数据约600MB，其中视频占500MB），兼顾了机器人模仿学习中小样本训练的可行性，且Apache-2.0许可协议免除了商用顾虑。

使用方法

用户可通过LeRobot库的API直接加载此数据集，核心依赖transformers与datasets生态。加载时指定数据集名称与default配置，自动返回含动作、状态、图像及元字段的字典。建议采用DataLoader分批次抽取episode_index分割的连续轨迹，利用观察图像与状态的组合训练行为克隆或逆动力学模型。可视化方面，可直接解码AV1视频流进行操作回放或注意力机制分析。由于总片段仅25条，适合快速原型验证或作为迁移学习的基底数据扩展至多机器人场景。

背景与挑战

背景概述

在机器人学习领域，模仿学习与基于演示的操控任务日益受到关注，而高质量、结构化的运动数据集是驱动算法发展的关键基石。press_button数据集由Hugging Face LeRobot团队创建，发布于2024年前后，旨在为机器人按按钮这一精细操作任务提供标准化训练与评估资源。该数据集包含25个演示回合、共计10504帧，由so101_follower机器人平台采集，记录了六自由度关节动作与三路摄像头（两路高清1280×720、一路640×480）的视觉观测，帧率为30 FPS。其核心研究问题聚焦于如何利用多模态感知（视觉-状态）数据训练机器人完成高精度按压动作，为机器人技能迁移学习与行为克隆提供了基准，对推动低样本机器人操控算法的开发具有重要影响力。

当前挑战

该数据集所应对的领域挑战在于：按压按钮任务要求机器人具备对微小力位变化的精准控制与视觉-运动协调能力，现有模型往往在适应不同按钮形状、材质及按压深度时出现泛化不足。构建过程中面临的挑战包括：采集高质量演示数据需人工遥操作并精确同步多摄像头视频与关节状态，确保动作一致性与时间对齐；数据规模有限（仅25 episodes），难以覆盖按压角度、力度及环境光照变化的多样性，易导致模型过拟合；同时，高分辨率视频与高频动作数据的存储与高效读取对数据管道设计提出了苛刻要求，需平衡视频压缩（AV1编码）与保真度，以支撑大规模分布式训练。

常用场景

经典使用场景

在机器人学习领域，press_button数据集为模仿学习与行为克隆提供了理想的训练素材。该数据集记录了SO-100系列机械臂执行按键操作任务的完整轨迹，包含25个独立回合、逾万帧高保真观测序列。每个样本均提供六维关节空间动作指令与状态观测，并辅以多视角视觉信息——涵盖三台分辨率各异的摄像机（包括720p与480p画面），这使其成为多模态感知与动作耦合研究的典范资源。研究者常利用该数据集训练端到端神经网络模型，从原始视觉输入直接映射到连续动作输出，探索复杂精细操控任务中的泛化与鲁棒性评估。

解决学术问题

press_button数据集破解了精细操作任务中数据稀缺与高维连续动作空间建模的长期困境。传统机器人学习方法往往受限于低自由度动作或理想化仿真环境，难以迁移至真实世界的精准操控场景。该数据集提供的高频（30FPS）关节状态与动作配对记录，使得研究者能够系统分析行为克隆中的协变量偏移问题，以及视觉运动策略的跨视角泛化机制。其结构化的元信息（如分段式存储与任务索引）还支持因果推理、逆强化学习等前沿方向的算法验证，为揭示灵巧操作背后的学习原理奠定了数据基础。

衍生相关工作

基于press_button数据集，学术界已衍生出多项里程碑式工作。在算法层面，该数据集支撑了从行为克隆到扩散策略（Diffusion Policy）的动作生成范式跃迁，成为验证隐式策略与能量基模型在精细操控任务中优越性的基准。在评估体系上，研究者利用其标准化轨迹格式开发了动作预测误差、任务完成率等多维度度量指标，催生了如Robomimic等统一评测框架的数据源扩展。值得关注的是，该数据集与LeRobot工具链的深度融合推动了机器人学习可复现研究的标准化进程，启发了后续大规模多任务操控数据集（如RH20T）的建模方法论，促进了机器人社区从单体任务学习向通用技能基座的跨越。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集