five

Touch100k - 大规模触觉-语言-视觉多模态数据集|触觉感知数据集|多模态学习数据集

收藏
arXiv2024-06-06 更新2024-06-21 收录
触觉感知
多模态学习
下载链接:
https://cocacola-lab.github.io/Touch100k/
下载链接
链接失效反馈
资源简介:
Touch100k是由北京交通大学等机构创建的大型多模态数据集,包含100,147条数据,涵盖触觉、多粒度语言和视觉模态。数据集通过收集和整理来自公开触觉数据集的101,982个视觉-触觉观察,并利用GPT-4V生成多粒度文本描述,确保数据质量。Touch100k旨在解决触觉感知研究中语言模态的不足,通过提供丰富的触觉描述,支持材料属性识别和机器人抓取预测等任务,推动触觉为中心的多模态表示学习的发展。
提供机构:
北京交通大学
创建时间:
2024-06-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
Touch100k数据集的构建始于收集和整理101,982个视觉-触觉观测数据,这些数据来源于公开的触觉数据集。接着,利用GPT-4V模型和精心设计的提示,生成了包含丰富触觉信息的文本描述,这些描述分为句子级别和短语级别。为了保证描述的准确性和实用性,进行了多步骤的数据质量提升,包括模式过滤和机器校正、一致性评估和人工校正、完整性评估和人工校正。最终,我们获得了100,147个触觉-语言-视觉数据条目,并手动过滤掉了无效数据。
特点
Touch100k数据集具有以下特点:1)包含触觉、多粒度语言和视觉模态,覆盖了触觉场景下的各种信息;2)提供了多粒度的触觉感觉描述,包括句子级别的自然表达和短语级别的描述;3)数据规模大,达到了100k,可以支持大规模的多模态学习;4)数据质量高,经过多步骤的数据质量提升,保证了描述的准确性和实用性。
使用方法
Touch100k数据集可以用于多种任务,如材料属性识别和机器人抓取预测。首先,将视觉、触觉和文本描述输入到相应的编码器中,得到各自的表示。然后,使用对比学习将触觉表示和语言模态对齐。最后,根据具体任务,使用触觉表示进行预测或分类。
背景与挑战
背景概述
触觉感知是人类与周围环境互动的重要途径,它通过触摸物体来获取关于物体属性和结构的信息。在机器人领域,触觉感知对于机器人在复杂环境中导航和与各种物体交互至关重要。然而,与视觉和听觉感知研究相比,触觉感知的研究仍然相对较少。Touch100k数据集的创建填补了这一空白,它是一个大规模的触觉-语言-视觉多模态数据集,包含101,982个视觉-触觉观察数据,并使用GPT-4V模型生成了丰富的触觉感觉描述。Touch100k数据集的构建旨在促进触觉感知研究,并为机器人领域提供新的研究方向。
当前挑战
Touch100k数据集在构建过程中遇到了一些挑战。首先,构建高质量触觉数据集需要大量的人力、物力和财力资源。其次,在语言模态方面,现有的研究主要关注分类标签,缺乏对语言模态的深入探索。Touch100k数据集通过多粒度语言描述,提供了丰富的触觉信息,但如何有效地利用这些信息仍然是一个挑战。此外,Touch100k数据集主要针对GelSight传感器,其泛化能力到其他触觉传感器仍然是一个开放的问题。
常用场景
经典使用场景
Touch100k 数据集被广泛应用于触觉、语言和视觉多模态表示学习的研究中。该数据集包含丰富的触觉感觉描述,包括句子级别的自然表达和短语级别的描述,这些描述涵盖了触觉感觉的关键特征。通过利用 Touch100k 数据集,研究人员可以训练模型来理解触觉感觉,并将其与语言和视觉信息相结合,从而实现对物体的更全面的理解。此外,该数据集还可以用于机器人抓取预测、材料属性识别等任务,为机器人和人工智能领域的研究提供重要的数据支持。
解决学术问题
Touch100k 数据集解决了当前触觉研究主要关注视觉和触觉模态,而忽略语言领域的问题。该数据集提供了丰富的触觉感觉描述,包括句子级别的自然表达和短语级别的描述,从而使得研究人员可以更好地理解触觉感觉,并将其与语言和视觉信息相结合。此外,该数据集还可以用于机器人抓取预测、材料属性识别等任务,为机器人和人工智能领域的研究提供重要的数据支持。
衍生相关工作
Touch100k 数据集的构建和提出为触觉-语言-视觉多模态表示学习的研究提供了重要的数据支持。在此基础上,研究人员提出了多种触觉-语言-视觉表示学习方法,如 TLV-Link。这些方法可以有效地学习触觉、语言和视觉模态之间的关系,从而实现对物体的更全面的理解。此外,该数据集还可以用于开发触觉辅助设备,帮助人们更好地理解和感知周围的世界。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

NASA Exoplanet Archive

Exoplanets specifies Confirmed Planets.

kaggle 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录