eval_act_tactile_pen_bag_may3

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/Tna001/eval_act_tactile_pen_bag_may3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，主要用于机器人技术领域的研究和应用。数据集包含6个完整的情节（episodes），共计27521帧数据，总数据量为100MB，视频文件大小为200MB，帧率为10fps。数据以parquet格式存储，视频以mp4格式存储。数据集包含多种特征，如动作（action）、观察状态（observation.state）、顶部图像（observation.images.top）、触觉数据（observation.tactile.primary）等。动作和观察状态特征均为6维浮点数组，分别对应机器人关节的位置。顶部图像为224x224像素的RGB视频，触觉数据为12x32的浮点数组。数据集还包含时间戳、帧索引、情节索引等辅助信息。适用于机器人控制、触觉反馈、计算机视觉等任务。

创建时间：

2026-05-04

原始信息汇总

数据集概述

数据集名称: eval_act_tactile_pen_bag_may3
任务类别: 机器人学（robotics）
许可证: Apache-2.0
创建工具: 使用 LeRobot 创建

数据集结构

代码库版本: v3.0
机器人类型: so_tactile_follower
总集数: 6
总帧数: 27,521
总任务数: 1
数据分片大小: 1,000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 10 FPS
数据分割: 训练集包含全部6集（0:6）

数据特征

特征名称	数据类型	形状/维度	描述
action	float32	[6]	动作指令，包含6个关节位置（shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper）
observation.state	float32	[6]	观测状态，与动作指令维度相同
observation.images.top	video	[224, 224, 3]	顶部摄像头图像，分辨率224x224，3通道，编码格式AV1，帧率10 FPS
observation.tactile.primary	float32	[12, 32]	触觉传感器数据，12行32列的矩阵
timestamp	float32	[1]	时间戳
frame_index	int64	[1]	帧索引
episode_index	int64	[1]	集索引
index	int64	[1]	全局索引
task_index	int64	[1]	任务索引

触觉传感器配置

传感器名称: primary
端口: /dev/ttyUSB0
波特率: 2,000,000
行数: 12
列数: 32
阈值: 25.0
噪声尺度: 30.0
初始化帧数: 30
是否已校准: 是
基线数据: 提供12x32的基线矩阵，用于校准触觉传感器

数据存储路径

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

BibTeX: 暂无提供

搜集汇总

数据集介绍

构建方式

本数据集基于LeRobot框架构建，旨在为机器人触觉操作研究提供多模态训练数据。数据集通过配置有触觉传感器的so_tactile_follower机器人平台采集，共包含6个完整回合、27521帧有效数据，涵盖单一操作任务。数据以parquet格式存储机器人动作序列与状态信息，并同步记录来自顶部摄像头的224×224像素RGB视频流，以及12×32分辨率的触觉传感器阵列原始读数。所有传感器数据均经过校准处理，并以10帧/秒的采样频率进行同步采集。

特点

该数据集的核心特色在于深度融合了视觉与触觉两种感知模态。其中触觉传感器阵列提供了精细的力分布图谱，其校准参数与基线噪声水平已预先标定，确保了数据的可靠性。动作空间与观测状态均采用六自由度的机器人关节角度表示，便于直接用于模仿学习与强化学习算法。视频流采用AV1编码压缩，在保持224×224分辨率的同时显著降低了存储开销，使总计200MB的视频数据与100MB的数值数据相得益彰。

使用方法

数据集遵循LeRobot标准格式，可通过其API便捷加载。用户调用相应接口即可自动获取分块存储的parquet数据与视频文件。数据按训练集单一划分方式组织，适合进行端到端的机器人操作策略学习。建议研究者利用提供的视觉与触觉联合特征进行多模态融合建模，或单独使用触觉信息作为精细操作任务的输入。数据集完整保留了时间戳与帧索引信息，便于构建时序模型和处理多回合连贯操作任务。

背景与挑战

背景概述

在机器人操作领域，融合多模态感知信息以实现精细操作是当前研究的前沿方向。该数据集由研究团队于2023年5月创建，基于LeRobot框架构建，主要聚焦于机器人通过触觉与视觉反馈执行笔袋抓取任务。数据集采用so_tactile_follower机器人平台，采集了6个 episode、超过27000帧的序列数据，包含机器人关节状态、顶部视觉图像（224×224分辨率）以及12×32触觉传感器阵列的触觉信号。该数据集通过标准化格式（如parquet与mp4文件）提供了完整的动作与观测空间，为触觉-视觉融合策略的模仿学习与强化学习研究提供了标准化基准，对提升机器人精细化操作能力具有重要参考价值。

当前挑战

该数据集所解决的领域核心挑战在于如何高效融合触觉与视觉信息以实现精准抓取，尤其是在物体形变或遮挡的复杂场景下。触觉传感器提供了32×12的密集压力分布，但如何将其与视觉特征在时间维度上对齐并协同处理仍是难点。构建过程中，触觉传感器校准参数（如阈值25.0、噪声尺度30.0）的设定需要大量人工调试，且因传感器基线存在非零异常值，可能引入系统性偏差。此外，数据采集仅涉及单一任务与少量episode，限制了模型泛化能力，同时高帧率（10fps）视频与触觉流的数据同步与存储管理也增加了工程复杂性。

常用场景

经典使用场景

在机器人灵巧操作领域，该数据集为研究基于触觉反馈的精细抓取与操控提供了关键资源。其核心使用场景聚焦于利用多模态信息——包括机器人关节状态、顶部视觉图像以及高分辨率触觉传感器阵列数据——来训练模仿学习或强化学习模型，以完成如将笔插入笔袋这类对接触力与姿态精度要求极高的装配任务。数据采集频率为10帧/秒，包含超过27000帧的连续轨迹，充分捕捉了操作过程中的动态交互细节。

实际应用

实际应用场景涵盖工业精密装配、医疗手术辅助及家庭服务机器人等领域。以笔袋插入任务为原型，该数据直接可用于训练机器人在狭小空间内的柔顺装配技能，例如电子元器件的插座对接、精密仪器的零部件安装。此外，借助触觉数据对环境刚度与表面纹理的感知，机器人能够安全地执行抓取易碎物体、操控柔性线束等复杂操作，显著提升产线自动化与医疗操作中的安全性与成功率和自适应能力。

衍生相关工作

该数据集衍生出的经典工作包括基于触觉的逆动力学模型学习、触觉数据增强的视觉预训练框架，以及结合扩散策略与触觉输入的机器人行为克隆方法。研究思路通常围绕如何将低维触觉特征（如12x32的触觉图）与高维视觉编码器或策略网络对齐，进而开发出具有鲁棒性的触觉-动作映射模型。这些工作为后续如‘触觉感知+粗略动作为规划’的分层操作架构、以及面向多变非结构化环境的泛化策略提供了基准与启发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集