mlfu7/Touch-Vision-Language-Dataset
收藏A Touch, Vision, and Language Dataset for Multimodal Alignment
数据集说明
该数据集名为“A Touch, Vision, and Language Dataset for Multimodal Alignment”,用于多模态对齐研究。数据集被分片为8个zip文件,使用时需先下载并解压。
下载和解压步骤
bash
git lfs install (可选)
git clone git@hf.co:datasets/mlfu7/Touch-Vision-Language-Dataset cd Touch-Vision-Language-Dataset zip -s0 tvl_dataset_sharded.zip --out tvl_dataset.zip unzip tvl_dataset.zip
数据集结构
tvl_dataset ├── hct │ ├── data1 │ │ ├── contact.json │ │ ├── not_contact.json │ │ ├── train.csv │ │ ├── test.csv │ │ ├── finetune.json │ │ └── 0-1702507215.615537 │ │ ├── tactile │ │ │ └── 165-0.025303125381469727.jpg │ │ └── vision │ │ └── 165-0.025303125381469727.jpg │ ├── data2 │ │ ... │ └── data3 │ ... └── ssvtp ├── train.csv ├── test.csv ├── finetune.json ├── images_tac │ ├── image_0_tac.jpg │ ... ├── images_rgb │ ├── image_0_rgb.jpg │ ... └── text ├── labels_0.txt ...
训练和推理
提供了TVL触觉编码器和TVL-LLaMA的检查点,详细信息请参考官方代码发布和论文。
引用
如果使用该数据集,请引用以下论文:
@article{fu2024tvl, title={A Touch, Vision, and Language Dataset for Multimodal Alignment}, author={Letian Fu and Gaurav Datta and Huang Huang and William Chung-Ho Panitch and Jaimyn Drake and Joseph Ortiz and Mustafa Mukadam and Mike Lambeta and Roberto Calandra and Ken Goldberg}, journal={arXiv preprint arXiv:2402.13232}, year={2024} }




