naavox/clear_79

Name: naavox/clear_79
Creator: naavox
Published: 2026-05-01 14:57:07
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/naavox/clear_79

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，包含机器人相关的数据。数据集结构包括动作、观察状态、时间戳、帧索引、任务索引等特征。动作特征包含12个浮点数值，代表夹持器和锚点的速度以及手腕和手指的速度等。观察状态特征包含25个浮点数值，代表夹持器和锚点的位置、速度、旋转角度等。此外，数据集还包含来自夹持器摄像头和锚点摄像头的视频数据，视频分辨率和编解码信息也有详细说明。数据集总共有1个任务、1个片段和202帧数据，视频和数据文件的总大小分别为200MB和100MB。

This dataset was created using LeRobot and contains robotics-related data. The dataset structure includes features such as actions, observation states, timestamps, frame indices, and task indices. The action feature consists of 12 floating-point values representing the velocities of the gripper and anchors, as well as the speed of the wrist and fingers. The observation state feature consists of 25 floating-point values representing the positions, velocities, and rotation angles of the gripper and anchors. Additionally, the dataset includes video data from the gripper camera and anchor cameras, with detailed specifications on resolution and codec information. The dataset contains a total of 1 task, 1 episode, and 202 frames, with video and data file sizes totaling 200MB and 100MB, respectively.

提供机构：

naavox

搜集汇总

数据集介绍

构建方式

clear_79数据集依托LeRobot开源框架构建，专为机器人操作学习设计。数据采集过程基于名为stringman的机器人平台，通过遥操作或预设策略收集单任务、单条示范轨迹，共包含202帧时序数据，采样频率为每秒60帧。每条样本均同步记录12维动作指令（涵盖夹爪与锚点速度、腕部与手指速率及任务完成标志）与25维状态观测（融合位置、旋转、压力及测距信息），并辅以三路高清摄像头（夹爪视角与双锚点视角）的同步视频流，分别以384×384与544×960分辨率编码为AV1格式。所有数据按Parquet格式分块存储，元数据文件清晰定义了特征结构、数据路径与训练集划分。

特点

该数据集的核心特征在于其精细的动作状态空间与多模态感知的深度融合。动作空间不仅包含末端执行器的线速度与关节速率，还引入双锚点运动矢量与力/触觉反馈，为具身智能体提供了丰富的控制维度。观测空间则在此基础上叠加了完整位姿、手指角度与激光测距等环境感知项，使得机器人可同时追踪本体运动与外部交互。视频数据采用高帧率压缩编码，保留了操作的动态细节，同时支持基于索引的帧级对齐。尽管仅包含单条轨迹，但其数据规整、特征命名规范且结构完整，适合用于机器人模仿学习算法的原型验证与调试。

使用方法

用户可通过HuggingFace Spaces提供的可视化接口直接预览数据集内容，便于快速理解轨迹特点。在开发环境中，推荐使用LeRobot库的数据加载模块读取Parquet文件，其数据路径严格遵循'data/chunk-{index}/file-{index}.parquet'模板，可通过正则或显式路径解析获取。视频文件则存储于对应chunk的videos子目录，需按'videos/{camera_key}/chunk-{index}/file-{index}.mp4'规则访问。训练时可将'action'作为监督信号，将'observation.state'与'observation.images.*'拼接为输入特征，构建端到端的策略网络。由于仅有一个训练分片，建议配合数据增强方法扩展样本多样性。

背景与挑战

背景概述

在机器人学习领域，基于视觉的灵巧操作研究长期受困于高保真数据匮乏的瓶颈，尤其是涉及多指机械手与复杂环境交互的精细任务。clear_79数据集由Hugging Face社区依托LeRobot框架创建，旨在为绳驱型灵巧手“StringMan”提供首个公开的闭环操作演示数据集。该数据集通过单次、约3.3秒的202帧高频轨迹（60fps），记录了包含三维线速度、关节角、指端压力及激光测距等25维状态信息，并同步采集了末端与双锚点摄像头的高清视觉流（分辨率达960×544），为研究非刚体驱动下的精确操控开辟了标准化基准。其采用Apache-2.0许可发布，奠定了多模态感知融合与机器人模仿学习研究的可信基础设施。

当前挑战

该数据集面临的挑战主要聚焦于领域问题与构建过程两方面。在领域层面，绳驱机器人因非线性迟滞与弹性变形导致状态空间建模极为复杂，而仅有单条演示轨迹（1个episode）难以覆盖泛化所需的动力学模式，这为模仿学习与策略迁移带来了严峻的过拟合风险。构建过程中，传感器异构数据的时空同步要求严苛——60fps视频流需与12维控制指令及压力传感信号在微秒级对齐，且单次演示缺乏对任务边界（如目标力阈值与手指接触状态）的显式标注，从而限制了其在鲁棒控制与故障诊断中的应用潜力。

常用场景

经典使用场景

在机器人学习领域，clear_79数据集为模仿学习与行为克隆研究提供了核心支撑。该数据集通过LeRobot框架采集，包含一个完整操作场景中202帧的精细运动序列，记录了一台名为'stringman'的机器人在60帧每秒的高频采样下的连续动作与状态信息。每个时间步的12维动作向量涵盖了夹爪速度、锚点速度及腕部与手指速度等控制信号，同时伴随25维状态观测，融合了机器人末端位姿、关节角度及激光测距与触觉压力等多模态感知数据。这一配置使其成为训练机器人从演示中学习复杂操作技能的经典范例。

衍生相关工作

clear_79数据集的出现衍生了一系列开创性研究工作。基于其多模态感知特征，研究者提出了融合视觉-力觉信息的模仿学习架构，例如利用深度神经网络同时处理384x384的夹爪图像与960x544的锚点视图，并通过时间序列模型预测下一时刻动作。此外，该数据集的高频60帧采样特性催生了时序精细化控制研究，一些工作将数据片段用于训练基于Transformer的动作规划器，以捕获微秒级的操作节奏。在LeRobot生态下，该数据集还被用作评估不同机器人基础模型性能的基准，推动了通用操作表征学习的发展，为后续大规模机器人数据集的设计提供了模板与启示。

数据集最近研究