TIGER-Lab/llava-data

Name: TIGER-Lab/llava-data
Creator: TIGER-Lab
Published: 2024-05-17 04:53:46
License: 暂无描述

Hugging Face2024-05-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/llava-data

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: llava_instruct features: - name: id dtype: string - name: images list: - name: bytes dtype: binary - name: path dtype: string - name: conversation list: - name: role dtype: string - name: content dtype: string - name: source dtype: string splits: - name: train num_bytes: 673732534 num_examples: 664943 download_size: 261968240 dataset_size: 673732534 - config_name: llava_pretrain features: - name: id dtype: string - name: images list: - name: bytes dtype: binary - name: path dtype: string - name: conversation list: - name: role dtype: string - name: content dtype: string - name: source dtype: string splits: - name: train num_bytes: 115249076 num_examples: 558128 download_size: 53730545 dataset_size: 115249076 configs: - config_name: llava_instruct data_files: - split: train path: llava_instruct/train-* - config_name: llava_pretrain data_files: - split: train path: llava_pretrain/train-* ---

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

数据集配置

llava_instruct
- 特征:
  - id: 类型为字符串。
  - images: 列表类型，包含以下字段:
    - bytes: 类型为二进制。
    - path: 类型为字符串。
  - conversation: 列表类型，包含以下字段:
    - role: 类型为字符串。
    - content: 类型为字符串。
  - source: 类型为字符串。
- 分割:
  - train: 包含673732534字节，664943个样本。
- 下载大小: 261968240字节。
- 数据集大小: 673732534字节。
llava_pretrain
- 特征:
  - id: 类型为字符串。
  - images: 列表类型，包含以下字段:
    - bytes: 类型为二进制。
    - path: 类型为字符串。
  - conversation: 列表类型，包含以下字段:
    - role: 类型为字符串。
    - content: 类型为字符串。
  - source: 类型为字符串。
- 分割:
  - train: 包含115249076字节，558128个样本。
- 下载大小: 53730545字节。
- 数据集大小: 115249076字节。

数据文件路径

llava_instruct:
- train: llava_instruct/train-*
llava_pretrain:
- train: llava_pretrain/train-*

搜集汇总

数据集介绍

构建方式

该数据集由TIGER-Lab构建，旨在服务于多模态大语言模型的训练。其构建方式分为两个核心配置：llava_instruct和llava_pretrain。llava_pretrain部分包含约55.8万条样本，侧重于图像与文本的初步对齐，通过大规模图像-描述对奠定视觉基础。llava_instruct部分则包含约66.5万条样本，基于复杂的指令微调范式，整合了多轮对话数据，每条样本涵盖图像（以二进制字节和路径形式存储）、对话历史（包含角色与内容字段）以及来源信息。数据以分片形式存储于HuggingFace，便于高效加载。

特点

该数据集的核心特点在于其双阶段设计，分别对应预训练与指令微调两个关键过程，实现了从视觉特征学习到多模态交互能力的递进式培养。llava_pretrain注重数据规模与多样性，为模型提供丰富的视觉语义基础；llava_instruct则强调对话的复杂性与真实性，每条样本包含多轮角色交替的对话内容，模拟真实的人机交互场景。此外，图像数据以二进制格式直接嵌入，避免了外部存储依赖，提升了数据处理的便捷性与安全性。

使用方法

使用该数据集时，用户可通过HuggingFace Datasets库加载，指定配置名称（如'llava_instruct'或'llava_pretrain'）及分片路径模式（如'llava_instruct/train-*'）。加载后的数据包含id、images（含二进制字节与路径）、conversation（含角色与内容列表）及source字段。对于llava_instruct，用户可直接提取多轮对话序列用于模型微调；对于llava_pretrain，则适合用于图像-文本对齐的预训练任务。建议在训练前对图像字节进行解码，并依据角色字段构建对话模板。

背景与挑战

背景概述

多模态大语言模型（MLLM）的崛起标志着人工智能领域从单一文本理解向视觉与语言深度融合的范式转变。在此背景下，LLaVA（Large Language and Vision Assistant）数据集由TIGER-Lab于2023年构建，旨在通过指令微调赋予大语言模型视觉感知与对话能力。该数据集包含两大核心配置：llava_instruct（约66.5万条视觉指令数据）与llava_pretrain（约55.8万条预训练对齐数据），其设计理念在于利用语言模型生成的多样化指令，驱动图像与文本的跨模态对齐。LLaVA数据集的提出，为多模态对话系统提供了标准化的训练基准，显著推动了视觉问答、图像描述等任务的性能突破，成为后续研究如LLaVA-NeXT、InstructBLIP等模型的重要基石。

当前挑战

当前LLaVA数据集面临的核心挑战在于多模态语义的一致性与数据覆盖的广度。首先，视觉与语言之间的细粒度对齐仍是领域难题，例如模型在理解抽象概念（如幽默、情感）或处理高分辨率图像中的微小细节时，常出现语义偏差。其次，数据构建过程中，指令生成的多样性依赖于预训练语言模型，导致部分对话模板存在同质化倾向，削弱了模型对真实场景中长尾分布的泛化能力。此外，数据规模虽大，但缺乏对复杂推理（如多步逻辑、空间关系）的针对性样本，使得现有模型在需要深度认知的任务中表现欠佳。最后，数据集的标注成本与质量平衡问题依然突出，人工校验的缺失可能引入噪声，影响下游任务的可靠性。

常用场景

经典使用场景

LLaVA-Data数据集是大型视觉-语言模型（LVLM）领域中的基石性资源，其经典使用场景在于为多模态对话系统的训练提供高质量的指令微调与预训练数据。该数据集包含llava_instruct和llava_pretrain两个核心配置，前者聚焦于多轮视觉对话指令，后者则用于视觉-语言表征的初步对齐。研究者借助该数据集，能够构建出能够理解图像内容并生成自然语言回复的模型，这为跨模态理解与生成任务奠定了数据基础。

实际应用

在实际应用中，LLaVA-Data训练出的模型可部署于智能客服、辅助视觉导航、教育辅助等场景。例如，在电商平台中，模型能根据商品图像自动生成详细的自然语言描述，提升用户体验；在医疗影像分析中，能够辅助医生解读CT或MRI图像，生成初步诊断报告。这些应用不仅提高了人机交互的直观性，还降低了专业领域对人工标注的依赖，展现出广阔的商业与社会价值。

衍生相关工作

LLaVA-Data的发布催生了一系列经典衍生工作，如LLaVA系列模型（LLaVA-1.5、LLaVA-NeXT）的迭代优化，这些工作通过引入更丰富的指令数据或改进视觉编码器，进一步提升了多模态模型的表现。同时，该数据集也启发了诸如ShareGPT4V、InstructBLIP等后续研究，它们借鉴其数据构建范式，探索了更高效的视觉-语言对齐策略。这些衍生工作共同推动了多模态人工智能从实验室走向实际落地的进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集