LLaVA-One-Vision-1.5-Insturct-26M

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Insturct-26M

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含多个配置，每个配置都有其数据文件路径和可用特征。每个数据集配置都指定了训练数据文件的路径和可用特征，如'id'、'image'、'conversations'和'data_source'。特征还包括每个字段的数据类型，如'string'或'image'。此外，README还提供了每个数据集配置的示例数量、数据集大小和下载大小等信息。

The dataset contains multiple configurations, each with its own data file path and available features. Each dataset configuration specifies the path of the training data files and the available features, such as "id", "image", "conversations" and "data_source". The features also include the data type of each field, such as "string" or "image". Additionally, the README provides information such as the number of samples, dataset size and download size for each dataset configuration.

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

数据集名称: LLaVA-One-Vision-1.5-Insturct-26M
许可证: Apache-2.0
数据源: 多源数据集集成

数据集配置

数据集包含多个配置，每个配置对应不同的数据子集：

视觉问答类

CLEVR-Math
FigureQA
GEOS
GeoQA+
Geometry3K
IconQA
PMC-VQA
Super-CLEVR
VizWiz
ai2d
chartqa
docvqa_train
geo170k_qa
geo3k
geomverse
hateful_memes
hme100k
infographic_vqa
mathqa
mavis_math_metagen
st_vqa
tabmwp
tqa
vqarad
vsr

文档处理类

OmniDocBench_train
allenai_pixmo_docs
chart2text
datikz
diagram
iam
iiit
image_textualization
invoices-and-receipts_ocr
latex_ocr
llavar
magpie_pro
magpie_ultra
oroikon_chart_captioning
rendered_text
rootsautomation
screen2words
sroie_data
textcaps
textocr_gpt4v
ureader_cap
ureader_ie
vistext
visualmrc
websight
wikipedia_2m

指令跟随类

Evol-Instruct-GPT4-Turbo
allava_instruct_laion4v
allava_instruct_vflan4v
cambrian
ifeval_like
llava_cot_100k
llava_wild
llrv_gpt4v
open_orca
openmathinstruct
orca_agentinstruct
robut_sqa
robut_wikisql
vision_flan
vision_oritented
visual_chat
vqaas
VisualWebInstruct

其他类型

alfredplpl
hitab
intergps
laion_220k
mapqa
unigeo

数据特征

所有配置共享相同的特征结构：

id: 字符串类型，样本唯一标识
image: 图像类型（部分配置为null）
conversations: 对话列表，包含from和value字段
data_source: 字符串类型，数据来源标识

数据规模

数据集总规模为26M样本，各配置样本数量从数百到数十万不等，涵盖多种视觉语言任务。

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，LLaVA-One-Vision-1.5-Insturct-26M数据集通过整合多个权威视觉问答与指令数据集构建而成。其构建过程涉及从CLEVR-Math、PMC-VQA、Geometry3K等超过60个数据源中精选样本，采用统一的图像-对话格式进行标准化处理，每个样本包含图像、多轮对话元数据及数据来源标识，确保了多模态数据的一致性与可追溯性。

特点

该数据集的核心特点在于其大规模与多样性，涵盖数学推理、几何解析、医学影像、图表理解、文档分析等十余个专业领域。总计2600万条样本的规模，配合高质量的图像-文本对，不仅提供了丰富的视觉语义信息，还通过结构化对话数据支持复杂推理任务，为模型训练提供了跨领域的综合知识基础。

使用方法

研究人员可通过HuggingFace平台按需加载特定子集（如CLEVR-Math或PMC-VQA），利用标准化的图像与对话字段进行多模态模型训练。该数据集兼容主流视觉语言框架，支持端到端的指令微调与推理能力评估，尤其适用于提升模型在专业领域的视觉理解与逻辑推理性能。

背景与挑战

背景概述

多模态大语言模型研究领域近年来蓬勃发展，LLaVA-One-Vision-1.5-Insturct-26M数据集作为该领域的重要资源，由国际顶尖研究团队基于LLaVA框架构建。该数据集整合了超过60个视觉-语言子数据集，涵盖几何推理、医学影像分析、图表理解、文档处理等多个专业领域，旨在解决视觉-语言联合理解与推理的核心问题。通过大规模指令微调数据的融合，该数据集显著提升了模型在复杂多模态任务中的泛化能力，为构建更强大的视觉语言助手奠定了数据基础。

当前挑战

该数据集面临的领域挑战主要体现为多模态语义对齐的复杂性，需要模型同时理解视觉内容与文本指令的深层关联，特别是在数学几何推理和医学影像分析等专业领域。构建过程中的技术挑战包括多源异构数据的标准化整合，涉及不同图像格式、标注规范和语言风格的统一处理。数据质量管控方面需应对噪声过滤和标注一致性问题，同时还要解决大规模多模态数据存储与高效访问的技术难题，确保数据集的实用性和可靠性。

常用场景

经典使用场景

在视觉语言模型研究领域，LLaVA-One-Vision-1.5-Insturct-26M数据集通过整合26M规模的图像-文本对话数据，为多模态理解与生成任务提供了标准化评测基准。其经典应用场景包括视觉问答、图像描述生成和跨模态推理，尤其擅长处理几何图形解析、科学图表理解和文档视觉问答等复杂任务。该数据集通过统一的对话格式将多种视觉语言任务整合，为模型提供端到端的多模态指令微调框架。

实际应用

在实际应用层面，该数据集支撑的模型已广泛应用于智能教育辅助系统，能够自动解析几何习题并提供解题指导；在医疗领域助力医学影像报告生成，通过PMC-VQA子集实现放射影像的智能问答；同时为文档数字化提供技术支持，利用DocVQA等组件实现合同、发票等商业文档的智能理解与信息提取。这些应用显著提升了专业领域的自动化处理效率。

衍生相关工作

基于该数据集衍生的经典工作包括多模态大模型的指令微调范式创新，如LLaVA-1.5架构的持续优化；催生了专注于几何推理的GeoLLaVA模型和面向医疗视觉问答的Med-VLA系统。这些工作不仅推动了视觉语言模型在专业垂直领域的发展，还促进了如VisualWebInstruct等新一代数据合成方法的演进，形成了完整的多模态学习技术生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集