MBZUAI/palo_multilingual_dataset
收藏Hugging Face2024-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MBZUAI/palo_multilingual_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言多模态数据集,用于训练PALO模型。数据集包含从LLaVA-v1.5中提取的665K英语指令,以及将LLaVA-Instruct-150K翻译成中文、法语、西班牙语、俄语、日语、阿拉伯语、印地语、孟加拉语和乌尔都语的指令,总计近2.1M指令。此外,数据集还包括从COCO、GQA、OCR-VQA、TextVQA和VisualGenome等数据集中下载的图像数据,这些图像数据需要按照特定的目录结构进行组织。
提供机构:
MBZUAI
原始信息汇总
PALO 多语言多模态数据集
数据集概述
PALO 数据集是一个多语言、多模态的数据集,用于训练 PALO 模型。该数据集包含以下内容:
- 语言种类:英语、中文、法语、西班牙语、俄语、日语、阿拉伯语、印地语、孟加拉语和乌尔都语。
- 数据量:总计约 2.1M 条指令。
- 665K 条英语指令来自 LLaVA-v1.5。
- LLaVA-Instruct-150K 的翻译版本,涵盖上述所有非英语语言。
图像数据准备
数据集包含以下图像数据:
- COCO:train2017
- GQA:images
- OCR-VQA:download script(保存为
.jpg格式) - TextVQA:train_val_images
- VisualGenome:part1 和 part2
下载所有图像数据后,应按以下结构组织数据:
├── coco │ └── train2017 ├── gqa │ └── images ├── ocr_vqa │ └── images ├── textvqa │ └── train_images └── vg ├── VG_100K └── VG_100K_2



