SALT-NLP/LLaVAR

Name: SALT-NLP/LLaVAR
Creator: SALT-NLP
Published: 2023-07-22 06:35:06
License: 暂无描述

Hugging Face2023-07-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SALT-NLP/LLaVAR

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVAR数据集是一个增强的视觉指令数据集，包含丰富的文本图像。训练数据基于LAION数据集，包括422K的预训练数据和16K的高质量微调数据，还提供了一个更大的20K微调数据集。评估数据包括50个基于LAION的文本丰富图像的指令跟随数据，用于GPT-4的评估。

提供机构：

SALT-NLP

原始信息汇总

LLaVAR Data: Enhanced Visual Instruction Data with Text-Rich Images

数据集概述

许可证: cc-by-nc-4.0
任务类别:
- 文本生成
- 视觉问答
语言: 英语
标签: LLaVA, LLaVAR

训练数据

预训练数据: 基于LAION数据集，收集了422K基于OCR结果的数据。
- 预训练图像: 链接
- 预训练指令: 链接
微调数据: 通过与纯语言GPT-4交互，收集了16K高质量指令遵循数据。
- 微调图像: 链接
- 微调指令 - 16K: 链接
- 微调指令 - 20K: 链接

评估数据

评估数据: 收集了50个基于LAION的文本丰富图像的指令遵循数据，用于GPT-4基础的指令遵循评估。
- 图像: 链接
- GPT-4评估上下文: 链接
- GPT-4评估规则: 链接
- 问题: 链接
- GPT-4答案: 链接

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，LLaVAR数据集通过系统化流程构建而成。其预训练数据源自LAION数据集，基于光学字符识别技术筛选出42.2万条图文对。微调阶段则通过与大语言模型GPT-4交互，生成了1.6万条高质量的指令跟随数据，并进一步扩展至2万条以增强多样性。整个构建过程强调对文本密集图像的深度解析，为模型理解复杂视觉场景中的文字信息奠定了坚实基础。

特点

该数据集的核心特征在于其专注于文本丰富的图像场景，弥补了传统视觉问答数据在文字理解维度上的不足。数据内容涵盖广泛的现实世界图文组合，尤其强化了对图像中嵌入式文本的关联性标注。其指令数据经由先进语言模型生成，确保了任务的复杂性与自然性，为训练模型执行细粒度的视觉语言推理提供了优质素材。

使用方法

使用该数据集时，研究者可将其直接整合至LLaVA等现有视觉指令微调框架中。预训练与微调指令文件均采用标准JSON格式，便于与原始训练流程对接。对于独立使用场景，建议先行过滤与原始LLaVA数据重叠的部分。评估模块提供了基于GPT-4的自动化评测方案，包含50个精心设计的文本图像问答对，支持对模型指令遵循能力进行量化分析。

背景与挑战

背景概述

在视觉语言模型快速发展的背景下，文本丰富图像的理解成为多模态人工智能领域的关键研究问题。LLaVAR数据集由SALT-NLP团队于2023年创建，其核心目标在于增强模型对包含密集文本的视觉场景的指令遵循与问答能力。该数据集基于LAION大规模图像文本对构建，通过整合光学字符识别技术与语言模型生成，提供了包含42.2万预训练样本与高质量微调指令的增强数据。这一工作显著推动了视觉语言模型在文档理解、场景文本交互等实际应用中的性能边界，为多模态推理研究提供了重要的数据基础。

当前挑战

LLaVAR数据集致力于解决视觉问答领域中文本丰富图像理解的独特挑战，例如模型需要同时解析视觉布局与嵌入式文字语义的复杂关联。在构建过程中，研究团队面临从海量网络图像中筛选高质量文本密集样本的困难，以及利用语言模型生成可靠指令时保持视觉与文本对齐的精度问题。此外，评估阶段需设计能够准确衡量模型对图像中文本信息理解深度的基准，这要求创造既具多样性又具判别力的测试实例。

常用场景

经典使用场景

在视觉语言模型的研究领域，LLaVAR数据集以其丰富的文本图像数据，为多模态指令跟随任务提供了关键支撑。该数据集通过整合基于OCR的预训练数据和GPT-4生成的高质量微调指令，典型应用于训练模型理解和响应包含密集文本的视觉内容，例如从图表、海报或文档图像中提取并解释文字信息。这种场景不仅考验模型对视觉与文本模态的融合能力，还推动了模型在复杂真实世界图像上的推理性能提升。

解决学术问题

LLaVAR数据集针对多模态人工智能中视觉问答与指令跟随的瓶颈问题，提供了系统性的解决方案。它通过大规模文本丰富的图像数据，缓解了传统视觉语言模型在识别和推理图像中嵌入文本时的不足，从而促进了模型在细粒度视觉理解、跨模态对齐以及上下文感知生成等方面的研究进展。该数据集的意义在于为学术界建立了一个标准化的基准，加速了模型在真实场景下的实用化进程，并对推动通用人工智能的发展产生了深远影响。

衍生相关工作

基于LLaVAR数据集，研究社区衍生了一系列经典工作，主要集中在扩展多模态指令跟随模型的架构与训练方法上。例如，后续研究借鉴其数据构建策略，开发了更高效的视觉语言预训练技术，或将其评估框架整合到新模型中，以提升在文本丰富图像上的性能。这些工作不仅深化了对多模态交互的理解，还为更广泛的视觉语言任务设立了新的研究方向与基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集