gelsight-test

Hugging Face2025-11-10 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/HojinJung/gelsight-test

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人学任务的数据集，包含了24个剧集，共13542帧，专注于一个任务。数据集以Parquet文件格式存储，并提供了相应的视频文件。数据集中的特征包括机器人的动作和状态，以及前后左右四个方向的图像。所有数据均以25帧每秒的帧率记录。

This is a dataset for robotics tasks, which contains 24 episodes totaling 13,542 frames and focuses on a single task. The dataset is stored in Parquet file format, with corresponding video files provided. The features included in the dataset are robot motions and states, as well as images captured from four directions: front, rear, left and right. All data is recorded at a frame rate of 25 frames per second.

创建时间：

2025-11-07

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot

数据集规模

总情节数: 24
总帧数: 13542
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 25 FPS
代码库版本: v3.0
机器人类型: so101_follower

数据结构

数据格式: Parquet文件
数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
分块大小: 1000
数据划分: 训练集包含所有24个情节

特征字段

动作特征

名称: action
数据类型: float32
维度: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测:
- 名称: observation.state
- 数据类型: float32
- 维度: [6]
- 包含与动作相同的6个关节位置
图像观测:
- 前视摄像头:
  - 名称: observation.images.front
  - 分辨率: 480×640×3
  - 视频编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 无音频
- 左视摄像头:
  - 名称: observation.images.left
  - 分辨率: 480×640×3
  - 视频编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 无音频
- 右视摄像头:
  - 名称: observation.images.right
  - 分辨率: 480×640×3
  - 视频编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 无音频

索引特征

时间戳: float32, 维度[1]
帧索引: int64, 维度[1]
情节索引: int64, 维度[1]
索引: int64, 维度[1]
任务索引: int64, 维度[1]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，gelsight-test数据集通过LeRobot框架系统构建，采用SO101型机器人执行单一任务，共采集24个完整交互序列，涵盖13542帧数据。数据以分块形式存储于Parquet格式文件中，每块包含1000帧，总数据量达100MB，同时配套500MB视频文件，帧率设定为25fps，确保时序连贯性。

特点

该数据集以多模态感知为显著特征，集成六自由度机械臂动作指令与三路视觉观测数据，分别从前视、左视、右视角度提供480×640分辨率的RGB视频流。数据结构严谨定义各特征维度，动作空间涵盖肩部平移、肩部抬升、肘部弯曲等关节位置参数，观测状态同步记录相同关节数据，形成动作-状态对应关系。

使用方法

研究者可通过解析Parquet数据文件获取结构化机器人交互记录，利用帧索引与时间戳重构完整任务序列。视频数据存储于独立MP4文件，支持与动作数据同步分析。数据集采用Apache 2.0许可协议，适用于机器人模仿学习、多传感器融合等研究场景，所有训练样本均纳入统一分割策略。

背景与挑战

背景概述

在机器人操作研究领域，触觉感知与视觉反馈的融合正成为提升机械臂精细控制能力的关键路径。gelsight-test数据集由HuggingFace团队通过LeRobot平台构建，采用SO101型仿随机器人记录多模态操作数据。该数据集包含24个任务片段、13542帧同步数据，以25帧/秒的采样率捕捉六自由度机械臂的关节位置与三视角视觉信息，为模仿学习与强化学习算法提供了真实世界的动态交互样本。

当前挑战

该数据集致力于解决机器人精细操作中的多模态感知融合难题，其核心挑战在于异构传感器数据的时空对齐精度，以及高维视觉流与低维动作空间的映射关系建模。数据构建过程中面临多路视频流同步存储的技术瓶颈，需平衡AV1编码效率与实时性需求，同时机械臂状态采集的毫秒级时间戳校准亦对硬件接口协议提出严苛要求。

常用场景

经典使用场景

在机器人操作学习领域，gelsight-test数据集通过多视角视觉观测与关节动作的同步记录，为模仿学习算法提供了丰富的训练样本。其包含的机械臂关节位置数据和三路高清视频流，能够有效支持端到端策略网络的训练过程，使机器人能够从视觉输入中直接推断出精确的动作指令。

实际应用

在工业自动化场景中，该数据集可应用于精密装配任务的技能迁移，通过记录专家操作时的视觉-动作对应关系，实现生产线上机械臂的快速部署。其多视角视觉系统特别适合复杂环境下的抓取定位，为智能制造领域的自适应控制系统提供了可靠的数据支撑。

衍生相关工作

基于该数据集的特性，衍生出了多模态融合的模仿学习框架，如视觉-动作联合嵌入网络架构。相关研究进一步拓展了时空注意力机制在连续控制任务中的应用，催生了基于Transformer的机器人操作策略生成模型，为后续的大规模机器人学习数据集构建提供了范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集