FreedomIntelligence/ALLaVA-4V

Name: FreedomIntelligence/ALLaVA-4V
Creator: FreedomIntelligence
Published: 2025-06-08 10:14:54
License: 暂无描述

Hugging Face2025-06-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FreedomIntelligence/ALLaVA-4V

下载链接

链接失效反馈

官方服务：

资源简介：

ALLaVA-4V数据集是一个包含图像描述和复杂推理问答对的多模态数据集，主要使用GPT-4V和GPT-4-Turbo模型生成数据。数据集分为多个子集，包括ALLaVA-Caption-LAION-4V、ALLaVA-Caption-VFLAN-4V、ALLaVA-Instruct-LAION-4V、ALLaVA-Instruct-VFLAN-4V和Evol-Instruct-GPT4-Turbo-143K。每个子集都有详细的样本数量、图像来源、指令来源和答案来源信息。数据集的结构清晰，包含多个JSON文件和图像文件，便于研究人员使用。

The ALLaVA-4V dataset is a multimodal dataset comprising image captions and complex reasoning-focused question-answer pairs, which is primarily generated via GPT-4V and GPT-4-Turbo models. It is split into multiple subsets, namely ALLaVA-Caption-LAION-4V, ALLaVA-Caption-VFLAN-4V, ALLaVA-Instruct-LAION-4V, ALLaVA-Instruct-VFLAN-4V, and Evol-Instruct-GPT4-Turbo-143K. Each subset is accompanied by detailed metadata including the number of samples, image source, instruction source and answer source. The dataset boasts a well-organized structure with multiple JSON files and image files, making it readily usable for researchers.

提供机构：

FreedomIntelligence

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别:
- 问答
- 文本生成
语言: 英语
标签:
- GPT-4V
- LVLM
- 视觉
- 语言
大小类别: 1M<n<10M

配置详情

config_name: allava_laion
- data_files:
  - split: caption
    - path: "allava_laion/ALLaVA-Caption-LAION-4V.json"
  - split: instruct
    - path: "allava_laion/ALLaVA-Instruct-LAION-4V.json"
config_name: allava_vflan
- data_files:
  - split: caption
    - path: "allava_vflan/ALLaVA-Caption-VFLAN-4V.json"
  - split: instruct
    - path: "allava_vflan/ALLaVA-Instruct-VFLAN-4V.json"
config_name: allava_text
- data_files:
  - split: train
    - path: "allava_text/Evol-Instruct-GPT4-Turbo-143K.json"

数据集内容

ALLaVA-Caption-LAION-4V
- 样本数量: 468,670
- 图像来源: LAION (web)
- 指令来源: 手工制作
- 答案来源: GPT-4V
ALLaVA-Caption-VFLAN-4V
- 样本数量: 194,977
- 图像来源: Vision FLAN
- 指令来源: 手工制作
- 答案来源: GPT-4V
ALLaVA-Instruct-LAION-4V
- 样本数量: 468,670
- 图像来源: LAION (web)
- 指令来源: GPT-4V
- 答案来源: GPT-4V
ALLaVA-Instruct-VFLAN-4V
- 样本数量: 194,254
- 图像来源: Vision FLAN
- 指令来源: Vision FLAN
- 答案来源: GPT-4V
Evol-Instruct-GPT4-Turbo-143K
- 样本数量: 143,000
- 指令来源: Wizard
- 答案来源: GPT-4-Turbo

数据集结构

bash ALLaVA-4V ├── allava_laion/ │ ├── ALLaVA-Caption-LAION-4V.json │ ├── ALLaVA-Instruct-LAION-4V.json │ └── images.zip ├── allava_vflan/ │ ├── ALLaVA-Caption-VFLAN-4V.json │ └── ALLaVA-Instruct-VFLAN-4V.json ├── allava_text/ │ └── Evol-Instruct-GPT4-Turbo-143K.json

数据准备

需要先克隆GitHub仓库，并根据不同的数据源（LAION, VFLAN, 文本）运行相应的下载脚本。

样本示例

提供了ALLaVA-Caption-LAION-4V, ALLaVA-Caption-VFLAN-4V, ALLaVA-Instruct-LAION-4V, ALLaVA-Instruct-VFLAN-4V, 和 Evol-Instruct-GPT4-Turbo-143K的样本示例。

搜集汇总

数据集介绍

背景与挑战

背景概述

FreedomIntelligence/ALLaVA-4V是一个多模态数据集，包含文本和图像数据，适用于视觉语言模型的研究和开发。数据集由多个子集组成，数据来源包括LAION和Vision FLAN，数据生成利用了GPT-4V和GPT-4-Turbo等先进模型。数据集的主要用途包括问答、文本生成等任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集