five

FreedomIntelligence/ALLaVA-4V

收藏
Hugging Face2025-06-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/ALLaVA-4V
下载链接
链接失效反馈
官方服务:
资源简介:
ALLaVA-4V数据集是一个包含图像描述和复杂推理问答对的多模态数据集,主要使用GPT-4V和GPT-4-Turbo模型生成数据。数据集分为多个子集,包括ALLaVA-Caption-LAION-4V、ALLaVA-Caption-VFLAN-4V、ALLaVA-Instruct-LAION-4V、ALLaVA-Instruct-VFLAN-4V和Evol-Instruct-GPT4-Turbo-143K。每个子集都有详细的样本数量、图像来源、指令来源和答案来源信息。数据集的结构清晰,包含多个JSON文件和图像文件,便于研究人员使用。

The ALLaVA-4V dataset is a multimodal dataset comprising image captions and complex reasoning-focused question-answer pairs, which is primarily generated via GPT-4V and GPT-4-Turbo models. It is split into multiple subsets, namely ALLaVA-Caption-LAION-4V, ALLaVA-Caption-VFLAN-4V, ALLaVA-Instruct-LAION-4V, ALLaVA-Instruct-VFLAN-4V, and Evol-Instruct-GPT4-Turbo-143K. Each subset is accompanied by detailed metadata including the number of samples, image source, instruction source and answer source. The dataset boasts a well-organized structure with multiple JSON files and image files, making it readily usable for researchers.
提供机构:
FreedomIntelligence
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 问答
    • 文本生成
  • 语言: 英语
  • 标签:
    • GPT-4V
    • LVLM
    • 视觉
    • 语言
  • 大小类别: 1M<n<10M

配置详情

  • config_name: allava_laion
    • data_files:
      • split: caption
        • path: "allava_laion/ALLaVA-Caption-LAION-4V.json"
      • split: instruct
        • path: "allava_laion/ALLaVA-Instruct-LAION-4V.json"
  • config_name: allava_vflan
    • data_files:
      • split: caption
        • path: "allava_vflan/ALLaVA-Caption-VFLAN-4V.json"
      • split: instruct
        • path: "allava_vflan/ALLaVA-Instruct-VFLAN-4V.json"
  • config_name: allava_text
    • data_files:
      • split: train
        • path: "allava_text/Evol-Instruct-GPT4-Turbo-143K.json"

数据集内容

  • ALLaVA-Caption-LAION-4V
    • 样本数量: 468,670
    • 图像来源: LAION (web)
    • 指令来源: 手工制作
    • 答案来源: GPT-4V
  • ALLaVA-Caption-VFLAN-4V
    • 样本数量: 194,977
    • 图像来源: Vision FLAN
    • 指令来源: 手工制作
    • 答案来源: GPT-4V
  • ALLaVA-Instruct-LAION-4V
    • 样本数量: 468,670
    • 图像来源: LAION (web)
    • 指令来源: GPT-4V
    • 答案来源: GPT-4V
  • ALLaVA-Instruct-VFLAN-4V
    • 样本数量: 194,254
    • 图像来源: Vision FLAN
    • 指令来源: Vision FLAN
    • 答案来源: GPT-4V
  • Evol-Instruct-GPT4-Turbo-143K
    • 样本数量: 143,000
    • 指令来源: Wizard
    • 答案来源: GPT-4-Turbo

数据集结构

bash ALLaVA-4V ├── allava_laion/ │ ├── ALLaVA-Caption-LAION-4V.json │ ├── ALLaVA-Instruct-LAION-4V.json │ └── images.zip ├── allava_vflan/ │ ├── ALLaVA-Caption-VFLAN-4V.json │ └── ALLaVA-Instruct-VFLAN-4V.json ├── allava_text/ │ └── Evol-Instruct-GPT4-Turbo-143K.json

数据准备

  • 需要先克隆GitHub仓库,并根据不同的数据源(LAION, VFLAN, 文本)运行相应的下载脚本。

样本示例

  • 提供了ALLaVA-Caption-LAION-4V, ALLaVA-Caption-VFLAN-4V, ALLaVA-Instruct-LAION-4V, ALLaVA-Instruct-VFLAN-4V, 和 Evol-Instruct-GPT4-Turbo-143K的样本示例。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
FreedomIntelligence/ALLaVA-4V是一个多模态数据集,包含文本和图像数据,适用于视觉语言模型的研究和开发。数据集由多个子集组成,数据来源包括LAION和Vision FLAN,数据生成利用了GPT-4V和GPT-4-Turbo等先进模型。数据集的主要用途包括问答、文本生成等任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作