Touch-Vision-Language (TVL) Dataset

Name: Touch-Vision-Language (TVL) Dataset
Creator: 加州大学伯克利分校
Published: 2024-02-21 02:47:56
License: 暂无描述

arXiv2024-02-21 更新2024-06-21 收录

下载链接：

https://tactile-vlm.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

TVL数据集由加州大学伯克利分校创建，包含44,000对视觉-触觉配对数据，其中10%由人工标注，90%由GPT-4V生成伪标签。该数据集旨在解决多模态对齐问题，特别是视觉、触觉和语言之间的对齐。数据集通过特制的3D打印设备在野外同步收集触觉和视觉数据，用于训练视觉-语言对齐的触觉编码器和触觉-视觉-语言模型，以提高多模态理解和文本生成的能力。

The TVL dataset, created by the University of California, Berkeley, consists of 44,000 pairs of visual-tactile paired data. Of these, 10% are manually annotated, while the remaining 90% have pseudo-labels generated by GPT-4V. This dataset is designed to address multimodal alignment issues, particularly the alignment between vision, touch and language. The tactile and visual data were synchronously collected in field environments using a purpose-built 3D printing device. It is used to train vision-language aligned tactile encoders and tactile-vision-language models, so as to enhance multimodal understanding and text generation capabilities.

提供机构：

加州大学伯克利分校

创建时间：

2024-02-21

搜集汇总

数据集介绍

构建方式

Touch-Vision-Language (TVL) 数据集的构建方式融合了人类标注和大型语言模型生成的文本伪标签。该数据集包含了 44K 个配对的视觉和触觉观察数据，其中 10% 的数据由人类标注，剩余 90% 的数据则由 GPT-4V 语言模型生成。为了确保数据集的质量和多样性，研究人员使用了 3D 打印的数据收集设备，该设备集成了 DIGIT 触觉传感器和 Logitech BRIO 网络摄像头，能够在野外环境中同步采集视觉和触觉数据。数据收集过程中，人类操作者使用该设备在物体表面进行按压和滑动操作，以获取丰富的触觉体验数据。

特点

TVL 数据集的特点在于其开放词汇的语言标注和跨模态的触觉、视觉和语言数据。数据集中的触觉和视觉观察数据被配对，并伴有自然语言描述，这些描述由人类标注和 GPT-4V 语言模型生成。这种混合标注方法不仅解决了触觉数据标注成本高的问题，还扩大了触觉描述的词汇量。此外，数据集中的触觉传感器数据以 RGB 图像的形式呈现，提供了高分辨率的触觉观察，有助于模型学习触觉感知。

使用方法

使用 TVL 数据集时，研究人员首先训练了一个触觉编码器，该编码器通过在所有三个模态之间进行成对对比学习，与文本和视觉模态对齐。然后，他们使用训练好的触觉编码器和现有的视觉和语言编码器来训练一个触觉视觉语言模型 (TVL)，该模型能够从视觉和触觉输入中生成触觉描述。在评估模型性能时，他们提出了一个触觉视觉语言基准，其中多模态模型被要求生成触觉描述，并使用 LLM 来评估其与人类标注的一致性。实验结果表明，TVL 模型在触觉视觉语言理解方面表现出显著提升，超越了现有的 VLMs 和 GPT-4V。

背景与挑战

背景概述

触觉是人类重要的感知方式，然而，在多模态生成语言模型中，触觉尚未得到充分的应用。这主要是因为获取触觉数据的自然语言标签存在困难，以及将触觉读数与视觉观察和语言描述进行对齐的复杂性。为了弥合这一差距，本研究引入了一个包含44K野外视觉-触觉配对的数据集，其中10%的数据由人类进行标注，其余90%的数据由GPT-4V生成伪标签。我们使用这个数据集训练了一个视觉-语言对齐的触觉编码器，用于开放词汇分类，以及一个触觉-视觉-语言(TVL)模型，用于文本生成。结果表明，通过引入触觉，TVL模型在触觉-视觉-语言对齐方面比现有模型提高了29%的分类精度。尽管数据集中只有一小部分数据由人类标注，但TVL模型在新的触觉-视觉理解基准上比GPT-4V（+12%）和开源视觉-语言模型（+32%）表现出更好的视觉-触觉理解。

当前挑战

TVL数据集面临的挑战包括：1)获取自然语言标签的困难；2)将触觉读数与视觉观察和语言描述进行对齐的复杂性；3)构建过程中遇到的挑战，例如数据收集设备的设计和制造、触觉数据的同步采集、以及伪标签生成的准确性等。

常用场景

经典使用场景

触觉是人类的感官之一，但尚未被多模态生成语言模型所融合。Touch-Vision-Language (TVL) 数据集的提出，旨在填补这一空白。该数据集包含了 44K 个在自然环境下的视觉-触觉对，并附有人工标注的英文标签和由 GPT-4V 生成的文本伪标签。TVL 数据集被用于训练一个视觉语言对齐的触觉编码器，以及一个用于文本生成的触觉视觉语言 (TVL) 模型。研究表明，通过融合触觉，TVL 模型在触觉视觉语言对齐方面取得了显著的提升，相较于仅在单一模态上训练的模型，其分类准确率提高了 29%。

衍生相关工作

TVL 数据集的提出，衍生了一系列相关的研究工作。例如，基于 TVL 数据集训练的触觉编码器可以用于触觉图像分类、触觉纹理识别等任务。此外，TVL 数据集还可以与其他多模态数据集相结合，例如视觉语言数据集、音频语言数据集等，构建更加全面的多模态理解模型。这些相关研究工作将进一步推动多模态学习和人工智能的发展。

数据集最近研究