Touch100k - 大规模触觉-语言-视觉多模态数据集

Name: Touch100k - 大规模触觉-语言-视觉多模态数据集
Creator: 北京交通大学
Published: 2024-06-06 15:37:57
License: 暂无描述

arXiv2024-06-06 更新2024-06-21 收录

下载链接：

https://cocacola-lab.github.io/Touch100k/

下载链接

链接失效反馈

官方服务：

资源简介：

Touch100k是由北京交通大学等机构创建的大型多模态数据集，包含100,147条数据，涵盖触觉、多粒度语言和视觉模态。数据集通过收集和整理来自公开触觉数据集的101,982个视觉-触觉观察，并利用GPT-4V生成多粒度文本描述，确保数据质量。Touch100k旨在解决触觉感知研究中语言模态的不足，通过提供丰富的触觉描述，支持材料属性识别和机器人抓取预测等任务，推动触觉为中心的多模态表示学习的发展。

Touch100k is a large-scale multimodal dataset developed by institutions including Beijing Jiaotong University. It contains 100,147 data entries, covering tactile, multi-granularity linguistic, and visual modalities. The dataset is curated by collecting 101,982 visual-tactile observations from public tactile datasets, and generating multi-granularity textual descriptions via GPT-4V to ensure high data quality. Touch100k aims to address the shortage of linguistic modalities in tactile perception research, to support tasks such as material property recognition and robotic grasping prediction by providing rich tactile descriptions, and to promote the development of tactile-centric multimodal representation learning.

提供机构：

北京交通大学

创建时间：

2024-06-06

搜集汇总

数据集介绍

构建方式

Touch100k数据集的构建始于收集和整理101,982个视觉-触觉观测数据，这些数据来源于公开的触觉数据集。接着，利用GPT-4V模型和精心设计的提示，生成了包含丰富触觉信息的文本描述，这些描述分为句子级别和短语级别。为了保证描述的准确性和实用性，进行了多步骤的数据质量提升，包括模式过滤和机器校正、一致性评估和人工校正、完整性评估和人工校正。最终，我们获得了100,147个触觉-语言-视觉数据条目，并手动过滤掉了无效数据。

特点

Touch100k数据集具有以下特点：1）包含触觉、多粒度语言和视觉模态，覆盖了触觉场景下的各种信息；2）提供了多粒度的触觉感觉描述，包括句子级别的自然表达和短语级别的描述；3）数据规模大，达到了100k，可以支持大规模的多模态学习；4）数据质量高，经过多步骤的数据质量提升，保证了描述的准确性和实用性。

使用方法

Touch100k数据集可以用于多种任务，如材料属性识别和机器人抓取预测。首先，将视觉、触觉和文本描述输入到相应的编码器中，得到各自的表示。然后，使用对比学习将触觉表示和语言模态对齐。最后，根据具体任务，使用触觉表示进行预测或分类。

背景与挑战

背景概述

触觉感知是人类与周围环境互动的重要途径，它通过触摸物体来获取关于物体属性和结构的信息。在机器人领域，触觉感知对于机器人在复杂环境中导航和与各种物体交互至关重要。然而，与视觉和听觉感知研究相比，触觉感知的研究仍然相对较少。Touch100k数据集的创建填补了这一空白，它是一个大规模的触觉-语言-视觉多模态数据集，包含101,982个视觉-触觉观察数据，并使用GPT-4V模型生成了丰富的触觉感觉描述。Touch100k数据集的构建旨在促进触觉感知研究，并为机器人领域提供新的研究方向。

当前挑战

Touch100k数据集在构建过程中遇到了一些挑战。首先，构建高质量触觉数据集需要大量的人力、物力和财力资源。其次，在语言模态方面，现有的研究主要关注分类标签，缺乏对语言模态的深入探索。Touch100k数据集通过多粒度语言描述，提供了丰富的触觉信息，但如何有效地利用这些信息仍然是一个挑战。此外，Touch100k数据集主要针对GelSight传感器，其泛化能力到其他触觉传感器仍然是一个开放的问题。

常用场景

经典使用场景

Touch100k 数据集被广泛应用于触觉、语言和视觉多模态表示学习的研究中。该数据集包含丰富的触觉感觉描述，包括句子级别的自然表达和短语级别的描述，这些描述涵盖了触觉感觉的关键特征。通过利用 Touch100k 数据集，研究人员可以训练模型来理解触觉感觉，并将其与语言和视觉信息相结合，从而实现对物体的更全面的理解。此外，该数据集还可以用于机器人抓取预测、材料属性识别等任务，为机器人和人工智能领域的研究提供重要的数据支持。

解决学术问题

Touch100k 数据集解决了当前触觉研究主要关注视觉和触觉模态，而忽略语言领域的问题。该数据集提供了丰富的触觉感觉描述，包括句子级别的自然表达和短语级别的描述，从而使得研究人员可以更好地理解触觉感觉，并将其与语言和视觉信息相结合。此外，该数据集还可以用于机器人抓取预测、材料属性识别等任务，为机器人和人工智能领域的研究提供重要的数据支持。

衍生相关工作

Touch100k 数据集的构建和提出为触觉-语言-视觉多模态表示学习的研究提供了重要的数据支持。在此基础上，研究人员提出了多种触觉-语言-视觉表示学习方法，如 TLV-Link。这些方法可以有效地学习触觉、语言和视觉模态之间的关系，从而实现对物体的更全面的理解。此外，该数据集还可以用于开发触觉辅助设备，帮助人们更好地理解和感知周围的世界。

以上内容由遇见数据集搜集并总结生成