Touch-and-Go (TG); Web-Material

Name: Touch-and-Go (TG); Web-Material
Creator: 韩国科学技术院; 韩国外国语大学; 蔚山国立科学技术院
Published: 2026-04-13 22:57:52
License: 暂无描述

arXiv2026-04-13 更新2026-04-15 收录

下载链接：

https://mm.kaist.ac.kr/projects/SeeingThroughTouch/

下载链接

链接失效反馈

官方服务：

资源简介：

该研究构建了Touch-and-Go (TG)和Web-Material两个触觉-视觉对齐数据集，旨在解决跨模态材料分割任务。Web-Material包含约1.7万张从网络采集的野外场景图像，覆盖多种材料类别，并通过大语言模型生成多样化查询词增强数据多样性。数据集通过CLIP相似度过滤误分类样本，确保材料标注准确性。其核心创新在于提出材料多样性配对策略，将触觉信号与视觉多样的同类别图像对齐，用于训练局部跨模态特征匹配模型，推动机器人触觉感知与场景理解的研究。

This study constructs two tactile-visual alignment datasets, Touch-and-Go (TG) and Web-Material, aiming to address the cross-modal material segmentation task. Web-Material contains approximately 17,000 wild scene images collected from the web, covering a variety of material categories, and enhances data diversity by generating diverse query terms through large language models. This dataset filters misclassified samples using CLIP similarity to guarantee the accuracy of material annotations. Its core innovation is the proposal of a material diversity pairing strategy, which aligns tactile signals with visually diverse images of the same material category for training local cross-modal feature matching models, thereby advancing research on robotic tactile perception and scene understanding.

提供机构：

韩国科学技术院; 韩国外国语大学; 蔚山国立科学技术院

创建时间：

2026-04-13

搜集汇总

数据集介绍

构建方式

在触觉定位研究领域，现有数据集往往局限于近距离、低多样性的视觉图像，难以支撑细粒度的跨模态对齐学习。为突破这一局限，Touch-and-Go (TG) 与 Web-Material 数据集的构建采用了创新的策略。TG 数据集通过人类操作者在多样化的真实环境中采集同步的触觉信号与视觉图像，形成了约 24.6 万对数据。在此基础上，研究团队进一步引入了 Web-Material 数据集，该部分数据通过大语言模型生成丰富的描述性查询，从网络广泛爬取包含多种材料类型的场景级图像，并经过 CLIP 模型与人工双重过滤以确保质量。核心构建思想在于利用材料多样性配对策略，将每个触觉样本与视觉上多样但触觉属性一致的图像进行关联，从而极大地丰富了跨模态对应关系的学习空间。

使用方法

该数据集主要用于训练和评估触觉定位模型，其使用方法紧密围绕跨模态对比学习框架展开。在训练阶段，模型同时接收触觉信号和配对的图像作为输入。触觉与视觉编码器分别提取特征，随后通过密集的跨模态特征交互计算相似度图，生成触觉显著性图以指示图像中与触觉输入对应的区域。训练过程充分利用了数据集的配对策略，包括同一触摸实例内的配对、同材料类别不同实例间的域内配对，以及触觉数据与网络爬取图像间的域外配对。在评估阶段，模型在 TG-Test、Web-Material 和 OpenSurfaces 等测试集上进行测试，通过预测的分割掩码与真实标注计算 mAP 和 mIoU 等指标，以衡量其触觉定位的准确性、交互能力以及对弱信号的鲁棒性。

背景与挑战

背景概述

Touch-and-Go (TG) 与 Web-Material 数据集由韩国科学技术院等机构的研究团队于2026年提出，旨在推动视觉-触觉跨模态感知领域的发展。该数据集的核心研究问题是触觉定位，即通过给定的触觉信号识别图像中具有相同材质属性的区域，模拟人类通过单一触觉感知推断视觉场景材质分布的能力。其创建突破了现有触觉数据集局限于近距离、低多样性图像的瓶颈，通过引入野外多材质场景图像与基于材质多样性的配对策略，显著提升了模型在复杂环境中的泛化能力与鲁棒性。这一工作为机器人感知、人机交互及多模态学习提供了重要的数据基础与研究范式。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，触觉定位任务需解决从触觉信号到视觉区域的细粒度跨模态对齐难题，现有方法依赖全局特征对齐，难以捕捉局部对应关系，导致在材质分割与空间推理任务中表现受限。在构建过程层面，数据采集受限于触觉信号的时空变异性与视觉多样性不足，原始Touch-and-Go数据集图像多为近距离单一材质特写，缺乏场景级多材质样本；为此，研究团队通过大规模网络图像爬取与自动化过滤策略构建Web-Material数据集，并设计材质多样性配对机制以增强数据有效性，但透明物体分割、涂装表面干扰等复杂场景仍对模型泛化构成持续挑战。

常用场景

经典使用场景

在跨模态感知与机器人交互领域，Touch-and-Go与Web-Material数据集为触觉驱动的视觉定位任务提供了核心基准。该数据集最经典的使用场景是训练模型执行‘触觉定位’：给定一个触觉信号输入，模型需要在一张复杂的真实场景图像中，分割并高亮出所有与该触觉感受相匹配的材质区域。这一过程模拟了人类通过单一触摸，便能推断并关联视觉环境中相似材质区域的能力，为机器理解材质属性与视觉外观之间的细粒度对应关系奠定了基础。

解决学术问题

该数据集有效解决了多模态学习中的若干关键学术问题。首要贡献在于突破了现有触觉-视觉方法依赖全局特征对齐的局限，通过提供密集的、像素级的触觉-视觉配对数据，支持模型学习局部跨模态特征交互，实现了从‘判断是否相关’到‘定位何处相关’的范式转变。其次，它通过引入包含多材质的野外场景图像，缓解了以往数据集视觉多样性不足、图像多为特写镜头导致的过拟合问题。这为研究如何从有限且昂贵的触觉数据中学习鲁棒的、可泛化的跨模态表示提供了重要实验平台。

实际应用

在现实应用中，该数据集支撑的技术在智能机器人、增强现实与工业自动化领域展现出巨大潜力。搭载触觉传感器的机器人可利用此类模型，在杂乱环境中仅通过一次触摸，便能识别并定位仓库中所有具有相同材质（如特定布料或金属）的物体，实现基于材质的物品分拣与抓取。在辅助交互场景中，系统可根据用户触摸的实物样本，实时在增强现实界面中高亮出场景内所有材质匹配的虚拟或真实区域，为设计、维修或购物提供直观指引。这些应用推动了机器从被动感知向主动、交互式环境理解的发展。

数据集最近研究