five

mlfu7/Touch-Vision-Language-Dataset|多模态学习数据集|数据对齐数据集

收藏
hugging_face2024-02-21 更新2024-03-04 收录
多模态学习
数据对齐
下载链接:
https://hf-mirror.com/datasets/mlfu7/Touch-Vision-Language-Dataset
下载链接
链接失效反馈
资源简介:
该数据集名为A Touch, Vision, and Language Dataset for Multimodal Alignment,由UC Berkeley、Meta AI、TU Dresden和CeTI的研究人员共同开发。数据集包含触觉、视觉和语言数据,旨在用于多模态对齐研究。数据集被分成了8个压缩文件,用户可以通过git克隆并解压来使用。数据集的结构包括触觉、视觉和语言数据的子目录,具体文件包括JSON、CSV和图像文件等。

该数据集名为A Touch, Vision, and Language Dataset for Multimodal Alignment,由UC Berkeley、Meta AI、TU Dresden和CeTI的研究人员共同开发。数据集包含触觉、视觉和语言数据,旨在用于多模态对齐研究。数据集被分成了8个压缩文件,用户可以通过git克隆并解压来使用。数据集的结构包括触觉、视觉和语言数据的子目录,具体文件包括JSON、CSV和图像文件等。
提供机构:
mlfu7
原始信息汇总

A Touch, Vision, and Language Dataset for Multimodal Alignment

数据集说明

该数据集名为“A Touch, Vision, and Language Dataset for Multimodal Alignment”,用于多模态对齐研究。数据集被分片为8个zip文件,使用时需先下载并解压。

下载和解压步骤

bash

git lfs install (可选)

git clone git@hf.co:datasets/mlfu7/Touch-Vision-Language-Dataset cd Touch-Vision-Language-Dataset zip -s0 tvl_dataset_sharded.zip --out tvl_dataset.zip unzip tvl_dataset.zip

数据集结构

tvl_dataset ├── hct │ ├── data1 │ │ ├── contact.json │ │ ├── not_contact.json │ │ ├── train.csv │ │ ├── test.csv │ │ ├── finetune.json │ │ └── 0-1702507215.615537 │ │ ├── tactile │ │ │ └── 165-0.025303125381469727.jpg │ │ └── vision │ │ └── 165-0.025303125381469727.jpg │ ├── data2 │ │ ... │ └── data3 │ ... └── ssvtp ├── train.csv ├── test.csv ├── finetune.json ├── images_tac │ ├── image_0_tac.jpg │ ... ├── images_rgb │ ├── image_0_rgb.jpg │ ... └── text ├── labels_0.txt ...

训练和推理

提供了TVL触觉编码器和TVL-LLaMA的检查点,详细信息请参考官方代码发布和论文。

引用

如果使用该数据集,请引用以下论文:

@article{fu2024tvl, title={A Touch, Vision, and Language Dataset for Multimodal Alignment}, author={Letian Fu and Gaurav Datta and Huang Huang and William Chung-Ho Panitch and Jaimyn Drake and Joseph Ortiz and Mustafa Mukadam and Mike Lambeta and Roberto Calandra and Ken Goldberg}, journal={arXiv preprint arXiv:2402.13232}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
mlfu7/Touch-Vision-Language-Dataset 数据集的构建旨在促进触觉、视觉和语言的多模态对齐研究。该数据集通过整合触觉传感器、视觉图像和自然语言描述,形成了一个多模态数据集。数据集的构建过程包括采集触觉和视觉数据,并将其与相应的语言描述进行配对,确保每组数据在多模态间具有一致性和关联性。
特点
该数据集的显著特点在于其多模态数据的丰富性和对齐性。数据集不仅包含了触觉和视觉的高分辨率图像,还提供了详细的语言描述,使得研究者能够探索不同模态间的深度关联。此外,数据集的结构设计合理,便于用户进行数据检索和处理,支持多种机器学习任务的训练和评估。
使用方法
使用该数据集时,用户需先下载并解压分片文件,然后按照提供的目录结构进行数据访问。数据集支持多种任务,包括但不限于多模态对齐、触觉与视觉的联合理解以及语言生成等。用户可参考提供的训练和推理指南,结合官方代码库进行模型训练和评估,以充分利用该数据集的多模态特性。
背景与挑战
背景概述
在多模态学习领域,触觉、视觉和语言的融合研究逐渐成为前沿课题。由加州大学伯克利分校、Meta AI、德累斯顿工业大学和CeTI等机构的研究人员共同创建的‘Touch-Vision-Language-Dataset’数据集,旨在推动多模态对齐研究。该数据集由Max (Letian) Fu、Gaurav Datta、Huang Huang等研究人员主导开发,于2024年发布,其核心研究问题聚焦于如何有效整合触觉、视觉和语言数据,以实现跨模态的深度理解和协同工作。该数据集的发布不仅为多模态学习提供了丰富的资源,还为相关领域的研究提供了新的视角和方法论支持。
当前挑战
构建‘Touch-Vision-Language-Dataset’数据集面临多重挑战。首先,触觉、视觉和语言数据的异质性使得数据整合和标注变得复杂,如何确保各模态数据间的对齐和一致性是关键难题。其次,多模态数据的采集和处理技术要求高,涉及传感器技术、图像处理和自然语言处理等多个领域的交叉应用。此外,数据集的规模和多样性也是一大挑战,如何在有限的资源下获取高质量、多样化的数据样本,以确保模型的泛化能力和鲁棒性,是研究团队必须克服的问题。
常用场景
经典使用场景
mlfu7/Touch-Vision-Language-Dataset 数据集的经典使用场景主要集中在多模态对齐任务中。该数据集通过整合触觉、视觉和语言三种模态的数据,为研究者提供了一个全面的平台,用于探索和验证多模态信息融合的算法。例如,研究者可以利用该数据集训练模型,使其能够根据触觉和视觉信息生成或理解自然语言描述,从而实现更精确的多模态交互。
衍生相关工作
基于该数据集,研究者已经开展了一系列相关工作,包括多模态对齐模型的开发、触觉和视觉信息的联合编码方法以及多模态语言模型的训练。这些工作不仅推动了多模态学习领域的发展,还为实际应用提供了新的技术支持。例如,基于该数据集训练的模型已经在机器人操作和虚拟现实交互中取得了显著的性能提升。
数据集最近研究
最新研究方向
在多模态学习领域,mlfu7/Touch-Vision-Language-Dataset的最新研究方向聚焦于触觉、视觉和语言三者的深度融合与对齐。该数据集通过提供丰富的触觉、视觉和语言数据,推动了多模态模型在复杂任务中的应用,特别是在机器人感知与交互、虚拟现实和增强现实等前沿领域。研究者们正利用此数据集探索如何更有效地整合不同模态的信息,以提升模型的理解能力和决策精度。此外,该数据集的发布也促进了跨学科合作,为触觉感知技术的进一步发展提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录