MBZUAI/palo_multilingual_dataset

Name: MBZUAI/palo_multilingual_dataset
Creator: MBZUAI
Published: 2024-03-03 17:10:37
License: 暂无描述

Hugging Face2024-03-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MBZUAI/palo_multilingual_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言多模态数据集，用于训练PALO模型。数据集包含从LLaVA-v1.5中提取的665K英语指令，以及将LLaVA-Instruct-150K翻译成中文、法语、西班牙语、俄语、日语、阿拉伯语、印地语、孟加拉语和乌尔都语的指令，总计近2.1M指令。此外，数据集还包括从COCO、GQA、OCR-VQA、TextVQA和VisualGenome等数据集中下载的图像数据，这些图像数据需要按照特定的目录结构进行组织。

提供机构：

MBZUAI

原始信息汇总

PALO 多语言多模态数据集

数据集概述

PALO 数据集是一个多语言、多模态的数据集，用于训练 PALO 模型。该数据集包含以下内容：

语言种类：英语、中文、法语、西班牙语、俄语、日语、阿拉伯语、印地语、孟加拉语和乌尔都语。
数据量：总计约 2.1M 条指令。
- 665K 条英语指令来自 LLaVA-v1.5。
- LLaVA-Instruct-150K 的翻译版本，涵盖上述所有非英语语言。

图像数据准备

数据集包含以下图像数据：

COCO：train2017
GQA：images
OCR-VQA：download script（保存为 .jpg 格式）
TextVQA：train_val_images
VisualGenome：part1 和 part2

下载所有图像数据后，应按以下结构组织数据：

├── coco │ └── train2017 ├── gqa │ └── images ├── ocr_vqa │ └── images ├── textvqa │ └── train_images └── vg ├── VG_100K └── VG_100K_2

5,000+

优质数据集

54 个

任务类型

进入经典数据集