BAAI/DataOptim

Name: BAAI/DataOptim
Creator: BAAI
Published: 2024-03-14 06:57:50
License: 暂无描述

Hugging Face2024-03-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BAAI/DataOptim

下载链接

链接失效反馈

官方服务：

资源简介：

DataOptim是一个数据仓库，旨在为多模态大语言模型（MLLMs）提供优化的训练数据解决方案。它包含了20个公开数据集，涵盖了图像描述、视觉问答、基础数据集、GPT-4生成的数据集和混合数据集等多个类别。每个数据集都提供了详细的图像数量、样本数量和分割方式信息。此外，DataOptim还介绍了不同任务类型的提示策略，并说明了数据集的格式和图像存储位置。

提供机构：

BAAI

原始信息汇总

DataOptim 数据集概述

数据集基本信息

任务类别: 视觉问答
语言: 英语
数据集名称: DataOptim
数据规模: 1M<n<10M

数据集详细信息

DataOptim 是一个专为多模态大型语言模型（MLLMs）训练数据优化设计的数据仓库。

包含的数据集

目前包含20个公开数据集，涵盖以下类别：

类别	数据集	图像数量	样本数量	分割
图像描述	COCO	82783	414113	train
图像描述	Flickr30K	29000	145000	Karpathy train split
图像描述	TextCaps	21953	109765	train
图像描述	TextOCR-GPT4V	25114	25114	train
视觉问答	VQAv2	82783	443757	train
视觉问答	OKVQA	8998	9009	train
视觉问答	OCRVQA	166041	801673	train
视觉问答	GQA	72140	943000	train
视觉问答	TextVQA	21953	34602	train
视觉问答	A-OKVQA	16540	17056	train
视觉问答	ScienceQA	6218	6218	train
视觉问答	Visual Genome QA (VGQA)	99280	1445322	-
视觉问答	DocVQA	10194	39463	train
视觉问答	DVQA	200000	2325316	train
定位	RefCOCO/RefCOCO+/RefCOCOg	24407	287604	train
定位	Shikra-RD	883	5922	train
GPT-4 生成	LLaVA-Instruct-150K	81479	157712	-
GPT-4 生成	SVIT	108076	2992799	-
GPT-4V 生成	ShareGPT-4V	87296	102025	-
混合	LLaVA-v1.5	291684	665298	-
总计		974K	11.2M

数据收集策略

图像描述: 收集5个手动编写的指令，随机选择一个作为每个描述的提示。
开放式视觉问答: 在问题后添加指令，要求模型以短句或短语形式提供答案。
选择题视觉问答: 在问题前添加指令，要求模型提供正确选项的答案。
定位: 使用Shikra中的数据和模板，随机选择一个格式化提示。
GPT-4/GPT-4V 生成 & 混合数据集: 保持提示不变。

提示示例

类别	数据	提示
图像描述	COCO, Flickr30K, TextCaps, TextOCR-GPT4V	用一句话或短语简单描述图像。<br />提供你所看到的简要总结。<br />提供图像的简短描述。<br />为图像写一个简短的描述。<br />简要描述图像的内容。
开放式视觉问答	VQAv2, OKVQA, OCRVQA, GQA, TextVQA, VGQA, DocVQA, DVQA	问题直接用短句或短语回答问题。
选择题视觉问答	A-OKVQA	为以下问题选择正确选项：问题

数据格式

视觉指令调优数据格式化为LLaVA的训练格式，图像可在官方网站或images文件夹中找到。图像不得用于其他目的，并应遵守原始许可，可能会在数据集所有者要求时随时下架。

搜集汇总

数据集介绍

构建方式

在构建DataOptim数据集时，研究者们精心整合了20个公开的多模态数据集，涵盖图像描述、视觉问答、基础定位以及GPT生成数据等多个类别。通过统一的策略对原始数据进行重新格式化，例如为图像描述任务设计了五种简洁的指令模板并随机采样，为开放式视觉问答添加了要求简短回答的指令后缀，并为多项选择题库引入了特定的提示结构。这种构建方式旨在将异构数据源转化为适合多模态大语言模型训练的标准化指令调优格式，从而提升数据利用效率。

使用方法

使用DataOptim数据集时，用户可直接通过Hugging Face平台访问其存储库，其中训练数据已按照LLaVA项目的格式进行组织。数据文件主要存放于指定的‘data’文件夹内，而对应图像需依据引用从原始官方来源或提供的‘images’文件夹中获取，使用时务必严格遵守各原始数据集的许可协议。该数据集专为多模态大语言模型的视觉指令调优阶段设计，研究人员可将其直接加载至训练流程中，以高效利用其经过优化的指令-响应对，从而专注于模型性能的提升与评估。

背景与挑战

背景概述

在人工智能迈向多模态融合的时代背景下，北京智源人工智能研究院（BAAI）于近期推出了DataOptim数据集，旨在为多模态大语言模型（MLLMs）的高效训练提供优化解决方案。该数据集汇聚了图像描述、视觉问答、指代表达及GPT生成数据等20个公开数据集，总计涵盖约97.4万张图像与1120万条样本，覆盖了从基础视觉理解到复杂推理的广泛任务。DataOptim的构建不仅整合了COCO、VQAv2、ScienceQA等经典资源，还融入了LLaVA-Instruct-150K等前沿生成数据，其核心研究问题聚焦于如何通过精心设计的指令模板与数据策略，提升MLLMs在跨模态指令跟随与知识泛化方面的性能，对推动视觉-语言协同学习的发展具有重要影响力。

当前挑战

DataOptim数据集致力于应对多模态大语言模型训练中数据利用效率低下的核心挑战，其首要难题在于如何统一异构数据源（如图像描述、视觉问答、选择题等）的格式与语义表示，以支持模型在多样任务间的稳定泛化。在构建过程中，团队需克服数据规模庞大带来的存储与处理压力，同时精心设计针对不同任务类型的指令模板，例如为开放式视觉问答添加简洁回答引导，或为选择题构建选项识别框架，以确保指令的清晰性与一致性。此外，数据集中存在的图像重复与授权合规问题，亦对资源的长期可用性与法律安全性构成了潜在考验。

常用场景

经典使用场景

在视觉-语言多模态研究领域，DataOptim数据集通过整合20个公开视觉问答与图像描述数据集，为多模态大语言模型的指令微调提供了标准化数据源。其经典使用场景在于支持模型进行端到端的视觉理解与生成任务训练，例如基于图像的开放式问答、细粒度物体定位以及复杂场景描述。该数据集采用精心设计的提示模板，确保了数据格式的统一性，从而提升了模型在跨任务泛化能力方面的表现。

解决学术问题

DataOptim有效解决了多模态学习中数据分散与格式不统一的学术难题。通过聚合大规模、多样化的视觉-语言对齐数据，该数据集支持研究者探索模型在零样本迁移、少样本学习以及跨模态推理等方面的性能瓶颈。其意义在于降低了数据预处理成本，促进了标准化评估基准的建立，为视觉-语言联合表征学习提供了可靠的数据基础，推动了多模态人工智能向更高效、更通用的方向发展。

实际应用

在实际应用层面，DataOptim数据集为智能客服、无障碍技术、教育辅助等场景提供了核心训练资源。例如，基于该数据集训练的模型能够解析医疗影像中的文本信息，辅助生成诊断报告；在自动驾驶领域，可增强车辆对交通标志与场景关系的理解能力。此外，其优化的指令格式可直接适配工业级多模态系统，提升人机交互的准确性与自然度。

数据集最近研究