LLaVA-NeXT-Data

Hugging Face2024-08-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/LLaVA-NeXT-Data

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-NeXT数据集是一个多模态数据集，包含英语和中文两种语言。数据集特征包括id、conversations、data_source和image，其中conversations包含from和value两个子特征。数据集由Haotian Liu等人策划，用于训练LLaVA-NeXT模型，仅限学术研究和教育用途。数据集来源包括高质量的用户指令数据和多模态文档/图表数据。

The LLaVA-NeXT dataset is a multimodal dataset that covers both English and Chinese languages. Its core features include id, conversations, data_source and image, where the conversations field contains two sub-features: from and value. Curated by Haotian Liu et al., this dataset is designed for training the LLaVA-NeXT model and is strictly limited to academic research and educational use. The dataset sources include high-quality user instruction data and multimodal document/chart data.

创建时间：

2024-08-08

原始信息汇总

数据集概述

数据集信息

特征

id: 字符串类型
conversations: 列表类型
- from: 字符串类型
- value: 字符串类型
data_source: 字符串类型
image: 图像类型

分割

train:
- 字节数: 124810423962.272
- 样本数: 779289

大小

下载大小: 92078304318
数据集大小: 124810423962.272

配置

default:
- 数据文件:
  - 分割: train
  - 路径: data/train-*

数据集描述

语言: 英语, 中文
许可证: Apache License 2.0
来源:
- 高质量用户指令数据
- 多模态文档/图表数据

使用

该数据集用于LLaVA-NeXT模型的训练，仅允许用于学术研究和教育目的。

代码指导

提供了将数据集转换为LLaVA-NeXT格式并进行模型训练的代码示例。

引用

@misc{liu2024llavanext, title={LLaVA-NeXT: Improved reasoning, OCR, and world knowledge}, url={https://llava-vl.github.io/blog/2024-01-30-llava-next/}, author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Li, Bo and Zhang, Yuanhan and Shen, Sheng and Lee, Yong Jae}, month={January}, year={2024} }

数据集作者

Haotian Liu
Chunyuan Li
Yuheng Li
Bo Li
Yuanhan Zhang
Sheng Shen
Yong Jae Lee

搜集汇总

数据集介绍

构建方式

LLaVA-NeXT-Data数据集的构建过程体现了对高质量视觉指令数据的严格筛选与整合。该数据集主要来源于两个关键数据源：现有的GPT-V数据（如LAION-GPT-V和ShareGPT-4V）以及从LLaVA演示中收集的15K视觉指令调优数据。为确保数据的多样性和响应质量，研究团队特别关注任务指令的广泛覆盖和用户反馈的积极导向。此外，数据集还剔除了TextCaps，并引入了DocVQA、SynDog-EN、ChartQA等数据，以增强模型在文档、图表理解方面的能力。

特点

LLaVA-NeXT-Data数据集的特点在于其多模态特性，涵盖了文本与图像的结合，特别适合用于视觉指令跟随任务。数据集包含约779K条数据，每条数据均包含对话记录、数据来源以及相关图像信息。通过精心筛选，数据集确保了指令的多样性和高质量响应，同时避免了潜在的隐私问题和有害内容。此外，数据集的构建还特别注重模型在零样本OCR能力和图表理解方面的表现，使其在视觉语言模型的训练中具有显著优势。

使用方法

LLaVA-NeXT-Data数据集的使用方法主要围绕视觉语言模型的训练展开。用户可以通过Hugging Face平台加载数据集，并将其转换为LLaVA-NeXT模型所需的格式。具体操作包括将图像数据保存至指定文件夹，并将对话记录以JSON格式存储。通过提供的代码示例，用户可以轻松实现数据格式的转换，并进一步用于模型的训练与调优。该数据集的使用仅限于学术研究和教育目的，用户在使用GPT-4生成的数据时需遵守OpenAI的使用政策。

背景与挑战

背景概述

LLaVA-NeXT-Data数据集由Haotian Liu、Chunyuan Li等研究人员于2024年创建，旨在支持LLaVA-NeXT模型的指令微调阶段。该数据集涵盖了多模态视觉指令跟随任务，包含高质量的视觉对话数据和多模态文档/图表数据。数据集的核心研究问题在于如何通过多样化的任务指令和高质量的响应，提升模型在真实场景中的表现。LLaVA-NeXT-Data的发布显著推动了多模态大模型在视觉理解和对话生成领域的发展，为相关研究提供了重要的数据支持。

当前挑战

LLaVA-NeXT-Data数据集面临的主要挑战包括两个方面。首先，在领域问题方面，如何确保视觉指令跟随任务的多样性和响应质量是一个关键挑战。数据集需要涵盖广泛的用户意图和场景，同时生成高质量的响应以满足用户需求。其次，在构建过程中，数据集的创建者需要处理隐私和版权问题，例如过滤潜在有害或涉及隐私的样本，并确保数据来源的合法性。此外，由于部分用户数据因政策问题未能公开，数据集的完整性和多样性受到一定限制，这对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

LLaVA-NeXT-Data数据集在视觉-语言多模态模型的指令微调阶段中扮演了关键角色。该数据集通过整合高质量的视觉指令跟随数据，涵盖了广泛的用户意图和任务类型，特别适用于训练能够理解和执行复杂视觉任务的模型。数据集中的图像和对话数据来源于真实用户请求，确保了模型在实际应用中的泛化能力。

解决学术问题

LLaVA-NeXT-Data数据集解决了多模态模型在视觉理解和语言生成任务中的关键挑战。通过引入多样化的视觉指令数据和高质量的响应生成，该数据集显著提升了模型在零样本OCR能力、图表理解和复杂场景推理等方面的表现。其数据来源的多样性和高质量标注为学术研究提供了坚实的基础，推动了多模态模型在真实世界应用中的发展。

衍生相关工作

LLaVA-NeXT-Data数据集衍生了一系列经典的多模态研究工作，如LLaVA-NeXT和LLaVA-NeXT(stronger)模型的开发。这些模型在视觉-语言任务中展现了卓越的性能，特别是在零样本OCR、图表理解和复杂场景推理方面。此外，该数据集还启发了其他研究团队探索多模态模型在更多实际场景中的应用，如文档理解、视觉问答和智能助手等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集