pick-laptop-charger-franka

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/andresceballosm/pick-laptop-charger-franka

下载链接

链接失效反馈

官方服务：

资源简介：

pick-laptop-charger-franka 是一个用于机器人捏取抓握操作的人类演示数据集，专门针对 Franka Emika Panda 机械臂和 Franka Hand 平行夹爪进行了重定向。该数据集采用 LeRobot v3.0 格式，旨在为模仿学习算法（如 ACT 或 Diffusion Policy）提供训练数据。数据通过配备 4 个 FSR 力传感器、MPU6050 IMU 和 Mac 网络摄像头的低成本传感手套采集，重点关注对笔记本电脑电源适配器进行捏取和提升的动作。数据集包含 83 个完整的演示片段，总计 8537 帧数据，对应约 285 秒的录制时长。核心数据模态包括：30 FPS 的 RGB 视频（分辨率 720×1280，来自前置摄像头），以及每帧对应的状态、动作、接触和压力信息。具体数据字段包括：`observation.images.front`（前置摄像头视频）、`observation.state`（7 维状态向量，包含末端执行器相对于物体中心的坐标、手腕姿态角和理论夹爪力）、`action`（7 维动作向量，包含位置和姿态的增量以及目标夹爪力）、`observation.contact`（二进制接触指示）、`observation.contact_per_finger`（4 维向量，表示各手指的独立二进制接触状态）、`observation.pressure_per_finger`（4 维向量，表示归一化的原始 FSR 压力读数）和 `observation.object_id`（对象类别标识符，固定为 laptop_charger）。该数据集是 humxai 系列中首个采用 v0.3 模式的数据集，其特点是使用稳健的二进制接触通道和理论力信号，以提高策略学习的可行性。数据集经过了严格的质量控制流程，从 105 个原始片段中筛选出 83 个可用于训练的片段。此外，基于该数据集训练的模型在空间分布外（OOD）泛化验证中表现出良好的性能，但存在仅针对单一特定物体、使用单目摄像头无深度信息、仅包含单演示者数据等局限性。

pick-laptop-charger-franka is a human demonstration dataset for robotic pinch-grasping operations, specifically retargeted for the Franka Emika Panda robot arm and Franka Hand parallel gripper. The dataset is formatted in LeRobot v3.0 and aims to provide training data for imitation learning algorithms such as ACT or Diffusion Policy. Data was collected using a low-cost sensing glove equipped with 4 FSR force sensors, an MPU6050 IMU, and a Mac webcam, focusing on pinching and lifting actions for a laptop power adapter. It contains 83 complete demonstration episodes, totaling 8537 frames, corresponding to approximately 285 seconds of recording. Core data modalities include: 30 FPS RGB video (resolution 720×1280 from a front-facing camera), and per-frame state, action, contact, and pressure information. Specific data fields are: `observation.images.front` (front camera video), `observation.state` (a 7-dimensional state vector including end-effector coordinates relative to the object center, wrist orientation angles from IMU fusion, and a computed theoretical gripper force), `action` (a 7-dimensional action vector with position and orientation increments and target gripper force), `observation.contact` (binary contact indicator), `observation.contact_per_finger` (a 4-dimensional vector for independent binary contact states of thumb, index, middle, and ring fingers), `observation.pressure_per_finger` (a 4-dimensional vector for normalized raw FSR pressure readings), and `observation.object_id` (object category identifier, fixed as laptop_charger). This dataset is the first in the humxai series to adopt the v0.3 pattern, characterized by robust binary contact channels and theoretical force signals instead of noisy raw FSR readings to enhance policy learning feasibility. It underwent rigorous quality control, filtering 105 raw episodes down to 83 usable for training. Additionally, model performance trained on this dataset was reported, with spatial out-of-distribution (OOD) generalization validation showing good generalization to unseen object positions. Limitations include being specific to a single object, using monocular cameras without depth information, and containing data from only one demonstrator.

创建时间：

2026-05-20

原始信息汇总

数据集概述

数据集名称：pick-laptop-charger-franka
许可协议：Apache-2.0
任务类型：机器人学（Robotics）
标签：robotics, manipulation, pinch-grasp, imitation-learning, lerobot, humxai, v0.3
数据规模：1K < n < 10K

数据集内容

该数据集包含人类演示的捏合抓取并提起笔记本电脑电源适配器的动作，并使用LeRobot v3.0格式重定向至Franka Emika Panda + Franka Hand平行夹爪。

83 个片段：执行“捏合 + 提起”动作
总计 8537 帧，约 285 秒
30 FPS RGB 视频（720×1280）及每帧的状态、动作、接触、压力信息
LeRobot v3.0 格式，可直接用于 ACT / Diffusion Policy 训练

数据结构

特征	形状	描述
`observation.images.front`	视频 (720×1280×3)	Mac 摄像头正面视角
`observation.state`	(7,)	[相对末端执行器x, y, z, 滚转角, 俯仰角, 偏航角, 夹爪力]
`action`	(7,)	[Δx, Δy, Δz, Δ滚转角, Δ俯仰角, Δ偏航角, 夹爪力目标]
`observation.contact`	(1,)	二进制：1 表示任一活动手指接触，0 表示未接触
`observation.contact_per_finger`	(4,)	四根手指（拇指、食指、中指、无名指）的二进制接触状态
`observation.pressure_per_finger`	(4,)	原始 FSR 压力归一化值 [0, 1]，供分析用
`observation.object_id`	(1,)	分类值（0 = 笔记本电脑充电器）

状态细节：
- rel_ee_x/y/z：末端执行器相对于物体中心的相对位置（物体中心系），跟踪器使用CSRT，物体边界框每个片段手动绘制。
- roll/pitch/yaw：基于MPU6050的Madgwick AHRS融合得出的手腕姿态（重力校正，运动下鲁棒）。
- gripper_force：理论值，非实测值。计算公式为：contact_smoothed × 14 N / 70 N = contact_smoothed × 0.200，其中14 N为笔记本电脑充电器安全抓取范围[8, 20] N的均值，70 N为Franka Hand最大力。

力语义（v0.3）

该数据集不使用FSR导出的力作为夹爪信号，而是采用理论力值：

gripper_force(t) = smoothed_contact(t) × theoretical_normalized = smoothed_contact(t) × (mean_n / max_robot_force_N) = smoothed_contact(t) × (14 / 70) = smoothed_contact(t) × 0.200

其中 smoothed_contact 是经过5帧中心箱形滤波器处理的二进制接触信号。

部署时：通过 commanded_N = policy_output × max_robot_force_N 转换为牛顿。（Franka Hand最大70 N，策略输出0.200 → 14 N）

每个物体的理论力范围保存在 meta/info.json::humxai.theoretical_force 中：

json { "max_robot_force_N": 70.0, "per_object_N": { "laptop_charger": {"min_n": 8.0, "max_n": 20.0, "mean_n": 14.0} } }

数据来源

手套录制：105个原始片段（humxai手套 MVP）
接触质量门控：校准工具验证FSR能否产生可靠接触事件
质量控制：recalibrate_episodes.py 对每个片段评分（绿色/黄色/灰色/红色）
筛选：cull_episodes.py 将20个黄色（单指）片段移至 _rejected/
计算机视觉管线：MediaPipe Hands + CSRT物体跟踪器
验证器：2个片段因时间戳抖动超过100ms被丢弃
重定向：retarget_for_robot.py --skill-yaml skills/pick_laptop_charger.yaml --robot franka_panda
格式转换：LeRobot v2.1 → v3.0

共计：105个原始 → 83个可训练片段（保留率79%）。

已训练模型

andresceballosm/pick-laptop-charger-act-v0：ACT 20k步，训练于全部83个片段。分布内评估：位置平均绝对误差2.8 mm，夹爪平均绝对误差0.040。
andresceballosm/pick-laptop-charger-act-ood：ACT 20k步，训练于59个片段（排除右侧桌面集群）。用于以下OOD泛化验证。

分布外泛化验证（Tier 4验证）

通过保留位置集群实验验证了空间分布外泛化能力。将83个片段按物体位置（第一帧边界框中心）聚类（KMeans，k=4）。空间最孤立的集群（24个片段，桌面右侧区域）作为OOD测试集。在剩余59个片段上训练ACT 20k步，并在24个保留片段上以回放风格评估。

结果：

指标	分布内（10个随机，全83模型）	OOD（24个保留，59训练模型）	比值
`pos_mae`	2.8 mm	2.7 mm	0.96×
`rot_mae`	0.009 rad	0.009 rad	1.07×
`gripper_mae`	0.040	0.047	1.18×
`gripper_timing_delta`	不适用	-13帧（约提前430 ms）	已知特征

解读：

位置泛化极佳：在空间上新颖的物体放置位置下，位置精度与训练分布内的片段基本一致。模型学到了（图像，状态）→ 动作的函数，而非记忆轨迹。
夹爪调制泛化良好：OOD夹爪平均绝对误差仅增加18%。
已知特征——夹爪提前闭合：策略比人类演示提前约13帧（约430 ms）闭合夹爪。对于控制延迟小于100 ms的部署，通常不是问题。

使用的阈值（OOD ≤ 2× 分布内 = 可销售）对于MVP阶段数据集是保守的。该数据集在所有指标上均轻松达标。

使用LeRobot

bash python -m lerobot.scripts.lerobot_train --dataset.repo_id=andresceballosm/pick-laptop-charger-franka --dataset.revision=main --policy.type=act --batch_size=16 --steps=20000 --output_dir=outputs/act_charger_v1 --policy.device=cuda --policy.use_amp=true --dataset.video_backend=pyav --tolerance_s=0.1

重要标志（不可省略）：

--tolerance_s=0.1：默认0.0001对人工录制时间戳过于严格
--dataset.video_backend=pyav：默认ffmpeg可能静默返回None

局限性

单一物体（一个特定的笔记本电脑充电器）。训练的策略可能无法泛化到其他形状的充电器。
单摄像头，无深度信息——rel_ee_z 基于IMU（近似值）。
仅进行了分布内验证——发布时未进行分布外/仿真到现实评估。
单一演示者——全部83个片段由一位操作员完成，未涵盖操作员间差异。
物体中心状态假设物体在帧1中可见——CSRT边界框每个片段手动绘制；跟踪器在长序列上可能漂移。

引用

源代码：https://github.com/andresceballosm/humxai-glove-dataset

bibtex @misc{ceballos2026humxai_charger_dataset, author = {Ceballos, Andrés Felipe}, title = {pick-laptop-charger-franka: human glove demos for Franka pinch-grasp}, year = {2026}, url = {https://huggingface.co/datasets/andresceballosm/pick-laptop-charger-franka} }

搜集汇总

数据集介绍

构建方式

该数据集通过低成本传感手套捕捉人类演示，包含四枚FSR压力传感器、MPU6050惯性测量单元及Mac摄像头。原始数据经接触质量门控筛选后，剔除单指接触及时间戳抖动过大的片段，仅保留83段高质量演示。随后利用CSRT目标跟踪器与MediaPipe手部关键点检测提取状态信息，并通过重定向算法将人手动作映射至Franka Emika Panda机械臂的平行夹爪空间，最终以LeRobot v3.0格式存储。

特点

数据集核心创新在于采用理论力而非原始FSR力作为夹爪控制信号：通过接触通道的平滑二进制值与目标物体安全抓取力范围（8-20 N）的比值归一化，有效规避低成本传感器漂移与硬件退化带来的噪声。同时引入每指接触状态与归一化压力，支持细粒度力交互分析。空间泛化验证表明，基于该数据训练的ACT策略在位置误差上仅2.8 mm，对未见的物体位置仍保持同等精度。

使用方法

用户可通过LeRobot框架直接调用，典型训练指令包含`--dataset.video_backend=pyav`与`--tolerance_s=0.1`参数以兼容人类演示的时间戳特性。支持ACT与扩散策略等模仿学习模型，输出动作可作为Franka Hand夹爪力指令，通过乘以最大力70 N还原为牛顿值。预训练模型已开源，可直接用于夹持笔记本电脑充电器的推箱子任务。

背景与挑战

背景概述

该数据集由Andrés Felipe Ceballos于2026年创建，依托于humxai项目，专注于解决机器人灵巧操作中的精细抓取问题。核心研究问题在于如何通过低成本传感手套捕获人类演示数据，并将其重定向至Franka Emika Panda机器人平台，以实现对笔记本电脑电源适配器的精准捏取与抬起操作。数据集包含83个演示片段（共8537帧），以LeRobot v3.0格式存储，并支持ACT与Diffusion Policy等模仿学习算法训练，为机器人操作技能学习提供了标准化的数据基准。其引入的理论力映射机制与接触通道设计，显著降低了对低质量传感器噪声的依赖，推动了低成本感知系统在机器人学习领域的实用化进程。

当前挑战

领域层面，精细抓取任务面临传感器噪声干扰与跨平台适配的难题。低成本FSR传感器存在基线漂移与硬件退化问题，导致原始力信号不可学习，因此数据集创新性地采用二值接触信号与理论力的映射策略，解决了力反馈不稳定带来的学习瓶颈。数据构建过程中，105个原始片段经接触质量门控、质量控制（红黄绿灰四色分级）及降噪筛选后仅保留83个（79%保留率），需克服时间戳抖动超100毫秒的严格容差限制。此外，单目标物体、单视角无深度信息及单演示者操作导致数据多样性不足，政策在空间分布外场景中表现良好，但快速夹具闭合偏差（提前约430毫秒）仍需在部署时谨慎考量。

常用场景

经典使用场景

在机器人操作与模仿学习的研究领域，该数据集为精细抓取任务提供了宝贵的人类演示样本。其核心使用场景在于训练基于视觉和力觉的机器人策略，使机械臂能够精准完成捏取与提举笔记本电脑电源适配器这类小型物体的动作。数据集中包含了83个演示片段，涵盖RGB视频、末端执行器相对于物体的位置、姿态以及接触与力信息，特别适合用于条件模仿学习方法如ACT（Action Chunking with Transformers）或扩散策略的训练。研究者可利用该数据集探索从人类操作到机器人控制的迁移路径，验证在有限样本下学习复杂接触式操作行为的可行性。

衍生相关工作

源自该数据集的关键衍生工作包括两个经过训练的ACT模型：基于全部83个片段训练的基准模型（pick-laptop-charger-act-v0）和专为验证空间泛化能力而构建的分布外评估模型（pick-laptop-charger-act-ood）。前者在分布内测试中展现出2.8毫米的位置平均绝对误差，而后者在从未见过的物体位置集合上实现了同样优异的准确性，验证了策略对位置的泛化能力。此外，该数据集采用了LeRobot v3.0格式，使得其可直接作为即用型数据源与其他模仿学习算法结合，推动了从低成本人类演示到高效机器人技能学习的完整工作流的发展，为机器人精细操作的数据高效学习提供了标准化的研究基准。

数据集最近研究