gelsight-mini-pretrain

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/yxma/gelsight-mini-pretrain

下载链接

链接失效反馈

官方服务：

资源简介：

GelSight Mini Pretrain是一个统一的、包含约865,000个原始GelSight Mini触觉RGB帧的数据集，专门用于自监督表示学习。该数据集聚合了八个公开可用的GelSight Mini触觉传感器数据集，包括FoTA、py3DCal、FEATS、GelSLAM、TactileTracking、Real Tactile MNIST和FeelAnyForce，将它们整合到一个统一的模式中。所有图像均以JPEG格式（质量92）重新编码，并存储在Parquet文件中，便于流式传输。数据集的一个关键特征是明确区分了带标记点（‘markered’）和无标记点（‘markerless’）的凝胶变体，这对于避免自监督学习目标混淆至关重要。数据集包含多个配置（子集），每个子集对应一个源数据集，并具有不同的标签类型，例如6DoF末端执行器姿态、接触力、压头形状、数字类别等。总数据量约为24 GB，适用于图像分类、特征提取、图像到图像等任务，是机器人触觉感知、预训练和自监督学习研究的宝贵资源。

GelSight Mini Pretrain is a unified dataset containing approximately 865,000 raw GelSight Mini tactile RGB frames, specifically designed for self-supervised representation learning. It aggregates eight publicly available GelSight Mini tactile sensor datasets, including FoTA, py3DCal, FEATS, GelSLAM, TactileTracking, Real Tactile MNIST, and FeelAnyForce, integrating them into a unified schema. All images are re-encoded in JPEG format (quality 92) and stored in Parquet files for efficient streaming. A key feature of the dataset is the explicit distinction between markered and markerless gel variants, which is crucial to avoid confusion in self-supervised learning objectives. The dataset includes multiple configurations (subsets), each corresponding to a source dataset with different label types, such as 6DoF end-effector poses, contact forces, indenter shapes, digit categories, etc. The total data volume is approximately 24 GB, making it suitable for tasks like image classification, feature extraction, and image-to-image translation, serving as a valuable resource for research in robotic tactile perception, pre-training, and self-supervised learning.

创建时间：

2026-05-16

原始信息汇总

好的，根据您提供的信息，以下是对该数据集的总结：

GelSight Mini Pretrain 数据集详情

数据集概述

数据集名称: GelSight Mini Pretrain
数据集规模: 约 865,000 张原始触觉RGB图像帧，文件大小约 24 GB。
许可证: cc-by-4.0
主要用途: 用于自监督表示学习的统一触觉数据集。适用于图像分类、特征提取、图像到图像等任务。
数据来源: 整合了 8 个公开的 GelSight Mini 触觉传感器数据集，统一为 Parquet 格式。
核心特色: 提供了清晰的 markered (标记点) 与 markerless (无标记点) 凝胶变体区分，避免模型混淆。

数据集构成

数据集根据来源（8个子集）进行分割，每个子集作为Hugging Face上的一个独立配置（config）。主要构成如下：

子集名称	来源数据集	帧数	凝胶类型	可用标签
`fota_labeled`	FoTA	29,494	混合 (66% 无标记, 34% 有标记)	末端执行器 x,y,z + 四元数
`fota_unlabeled`	FoTA	516,523	混合	仅物体名称
`threedcal`	py3DCal	36,270	无标记	探针 x, y, 穿刺深度 (mm)
`feats`	FEATS	16,711	有标记	压痕形状/尺寸 + 接触力
`gelslam`	GelSLAM	60,982	无标记	场景 + 物体名称
`tactile_tracking`	TactileTracking (NormalFlow)	1,143	无标记	物体 + 试验ID
`real_tactile_mnist`	Real Tactile MNIST	153,600	无标记	数字类别 (0-9) + 轮次ID
`feelanyforce`	FeelAnyForce	50,997	无标记	物体名称

帧数总计: 865,720 帧。

数据特点与处理流程

格式统一: 所有图像统一为 JPEG 质量 92 的字节串，存储在 Parquet 文件中。
模式统一: 保留 GelSight Mini 的两种原生分辨率 (640×480 RGB 和 320×240)，可通过 height 和 width 列过滤。
标记点检测: 对 FoTA 数据集进行了自动标记点检测，修复了其“混合凝胶”的问题，在数据集中新增了 markered 列用于区分。
空帧清除: 移除了 FEATS 数据集中约 5,302 张无接触的空帧（|f_z| < 0.5 N）。
自适应二次采样: 对后续新增的四个数据集（GelSLAM等）进行了自适应采样，将每个来源的帧数上限设为 200K。
有效性过滤: 对视频来源的数据集去除了接触前/后的无效运动帧。
感知哈希去重: 在每个捕获序列内去除视觉上几乎相同的相邻帧。
分裂: 每个上游数据集都有自己独立的 Hugging Face 配置，便于用户组合训练。

统一数据模式 (Schema)

无论数据来源如何，每一行数据都包含相同的列，不适用时字段为 null。

列名	类型	描述
`image`	图像 (二进制)	触觉RGB帧，JPEG字节，自动解码为PIL图像

(此外还包括一系列可选元数据列，如姿态、力、物体名称等，基于来源数据集提供。)

关键统计数据

`feats` 子集

力传感器覆盖: 包括6种压痕形状（长方体、球体、圆柱体、十字形、棱锥形和未标注），6个不同的测试分裂（包括分布外测试）。
法向力范围: f_z ∈ [−73.3, 0.0] N。
凝胶变体: 提供了一个 gel_variant 列，区分“标准有标记凝胶”和“另一种物理凝胶”。

`fota_labeled` 子集

目标对象: 包含13种不同的接触物体。
姿态覆盖: 提供了丰富的末端执行器6自由度位姿标签。

`real_tactile_mnist` 子集

数字类别平衡: 每个数字0-9的触觉图像数量基本均衡。

搜集汇总

数据集介绍

构建方式

该数据集整合了八个公开的GelSight Mini触觉数据集，经过统一的标准化流程处理。首先，通过验证数据来源以确保其来自GelSight Mini传感器；随后，将不同格式的图像与元数据统一为JPEG编码的Parquet行，并设计共享的元数据模式，包含位姿、压痕形状、力等可选字段。为解决FoTA数据集中凝胶变体（带标记点或无标记点）混合的问题，利用暗斑检测算法自动识别每一帧的凝胶类型并添加布尔标签。同时，对FEATS数据集去除悬浮于凝胶表面的无效帧，并引入自适应子采样、有效帧过滤及感知哈希去重机制，确保每个子集帧数均衡且质量一致。最终所有数据以Parquet格式分片存储，便于高效流式加载。

特点

该数据集拥有约86.5万帧触觉RGB图像，规模宏大且来源多样，涵盖不同物体、位姿、压痕形状及力传感器的捕获场景。其核心特征在于统一的元数据模式与图像编码，使得跨数据集联合训练变得直接高效。数据集中明确区分带标记点与无标记点凝胶图像，有效避免自监督学习模型因视觉差异而性能下降。此外，各子集保留了丰富的标注信息，如六自由度位姿、接触力、压痕深度及物体类别，支持多种监督与自监督学习任务。数据还包含经过去重和有效性过滤的高质量帧，并设有多个测试子集（如新凝胶、未知压痕器），为泛化性评估提供便利。

使用方法

用户可通过HuggingFace的`datasets`库便捷加载该数据集，每个子集作为独立的配置（config）访问。例如，使用`load_dataset("yxma/gelsight-mini-pretrain", "fota_unlabeled", split="train")`获取无标签视频帧用于自监督预训练；通过`"fota_labeled"`配置获取带有六自由度位姿标签的静态帧进行监督微调。对于力的回归任务，可选用`"feats"`配置，并结合`gel_variant`列区分不同物理凝胶变体。加载后，图像自动解码为PIL.Image对象，其他元数据以字典形式提供。建议根据任务需求利用`markered`列过滤凝胶变体，并通过`filter`方法构建纯标记点或无标记点子集。

背景与挑战

背景概述

触觉传感是机器人操作与环境理解中的关键感知模态，随着GelSight Mini等光学触觉传感器的普及，大规模触觉图像数据集的构建成为推动自监督表征学习与触觉人工智能发展的重要基础。由YX Ma等研究者于2025年创建的gel sight-mini-pretrain数据集，整合了八个公开触觉数据源，统一为约86.5万帧标准化的RGB触觉图像，并明确区分了标记与无标记凝胶类型。该数据集的出现有效解决了触觉数据分布零散、格式异构的核心难题，为触觉特征提取、自监督预训练等研究提供了统一的训练资源，对机器人灵巧操作、触觉SLAM及跨传感器泛化等领域具有显著推动力。

当前挑战

该数据集所解决的领域问题主要在于触觉感知研究中缺乏大规模、格式统一的预训练数据，导致模型泛化能力受限，尤其当不同数据源的凝胶类型、采集模式及编码方式差异显著时，自监督学习方法难以高效迁移。数据集构建过程中面临的挑战包括：第一，需跨越各上游数据集迥异的存储结构（如WebDataset tar分片、松散PNG、npy字典等）实现数据解码与统一编码；第二，需自动检测FoTA数据集中混合的标记凝胶类型以正确标记；第三，需设计自适应帧筛选与感知哈希去重机制，剔除FEATS中的无接触空帧及GelSLAM等视频源中的冗余邻近帧；第四，需为每个子集设定最大帧预算防止单一来源主导，同时维持数据分布平衡。

常用场景

经典使用场景

在触觉感知与机器人操作研究的交汇处，GelSight Mini Pretrain数据集为自监督表示学习提供了约86.5万帧原始触觉RGB图像，这些图像源自八个公开子集，涵盖无标记凝胶与标记凝胶两种变体。其经典使用场景聚焦于借助大规模、多样化的触觉数据，预训练能提取鲁棒性特征的视觉编码器，例如变分自编码器、掩膜自编码器或对比学习模型。研究人员可通过加载特定的配置如fota_unlabeled，在无需人工标注的条件下学习触觉图像中的隐式几何与纹理特征，从而为下游精细操作任务奠定基础。该数据集统一的Parquet格式和标准化的元数据结构，显著降低了多源数据整合的工程负担，使得跨子集联合训练成为可能，有效提升了模型的泛化能力。

实际应用

在智能机器人从实验室走向真实世界部署的路径上，该数据集助力多项关键实际应用。面向灵巧抓取与操作场景，预训练于GelSight Mini Pretrain的模型可直接用于估计接触力、识别物体材质及预测滑动，例如在Feats子集的力标签监督下，机器人可学习根据触觉反馈自适应调节夹持力，避免损坏脆性物品。在触觉SLAM与定位任务中，GelSLAM子集提供的时序触觉流使机器人能通过持续触碰推断自身相对位姿，适用于狭窄空间或视觉受限环境。此外，Real Tactile MNIST子集将类MNIST数字识别任务迁移至触觉域，展示了通过触摸完成符号或模式识别的可能性。统一的数据格式还便于工业界快速集成不同传感器的数据进行多模态融合，为下一代仿人机器人的触觉智能提供坚实的数据基础设施。

衍生相关工作

GelSight Mini Pretrain的发布催生了一系列衍生研究，这些工作充分利用其结构化触觉数据推进感知前沿。例如，FoTA（Force and Touch Alignment）子集提供了6自由度末端执行器位姿标签，支撑了从触觉图像直接回归物体接触姿态的研究，进而衍生出基于触觉的物体重定向与在线模型更新算法。FEATS子集凭借多压头形状与力标签，直接推动了触觉力预测与跨凝胶传感器泛化技术的研究，其中测试集的分拆设计（如test_diff_sensor_new_gel）成为评估模型鲁棒性的基准实验。py3DCal提供的密集校准网格则赋能了相机校准与三维触觉几何重建方法的系统开发。此外，该数据集的高质量统一格式也促进了开放式中枢式表示学习基准的建立，例如在近期ICRA与CoRL论文中，它被用于评估不同自监督范式对下游操作任务性能提升的贡献，逐渐成为触觉感知社区中事实上的预训练标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集