five

BAAI/DataOptim

收藏
Hugging Face2024-03-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BAAI/DataOptim
下载链接
链接失效反馈
官方服务:
资源简介:
DataOptim是一个数据仓库,旨在为多模态大语言模型(MLLMs)提供优化的训练数据解决方案。它包含了20个公开数据集,涵盖了图像描述、视觉问答、基础数据集、GPT-4生成的数据集和混合数据集等多个类别。每个数据集都提供了详细的图像数量、样本数量和分割方式信息。此外,DataOptim还介绍了不同任务类型的提示策略,并说明了数据集的格式和图像存储位置。
提供机构:
BAAI
原始信息汇总

DataOptim 数据集概述

数据集基本信息

  • 任务类别: 视觉问答
  • 语言: 英语
  • 数据集名称: DataOptim
  • 数据规模: 1M<n<10M

数据集详细信息

DataOptim 是一个专为多模态大型语言模型(MLLMs)训练数据优化设计的数据仓库。

包含的数据集

目前包含20个公开数据集,涵盖以下类别:

类别 数据集 图像数量 样本数量 分割
图像描述 COCO 82783 414113 train
图像描述 Flickr30K 29000 145000 Karpathy train split
图像描述 TextCaps 21953 109765 train
图像描述 TextOCR-GPT4V 25114 25114 train
视觉问答 VQAv2 82783 443757 train
视觉问答 OKVQA 8998 9009 train
视觉问答 OCRVQA 166041 801673 train
视觉问答 GQA 72140 943000 train
视觉问答 TextVQA 21953 34602 train
视觉问答 A-OKVQA 16540 17056 train
视觉问答 ScienceQA 6218 6218 train
视觉问答 Visual Genome QA (VGQA) 99280 1445322 -
视觉问答 DocVQA 10194 39463 train
视觉问答 DVQA 200000 2325316 train
定位 RefCOCO/RefCOCO+/RefCOCOg 24407 287604 train
定位 Shikra-RD 883 5922 train
GPT-4 生成 LLaVA-Instruct-150K 81479 157712 -
GPT-4 生成 SVIT 108076 2992799 -
GPT-4V 生成 ShareGPT-4V 87296 102025 -
混合 LLaVA-v1.5 291684 665298 -
总计 974K 11.2M

数据收集策略

  • 图像描述: 收集5个手动编写的指令,随机选择一个作为每个描述的提示。
  • 开放式视觉问答: 在问题后添加指令,要求模型以短句或短语形式提供答案。
  • 选择题视觉问答: 在问题前添加指令,要求模型提供正确选项的答案。
  • 定位: 使用Shikra中的数据和模板,随机选择一个格式化提示。
  • GPT-4/GPT-4V 生成 & 混合数据集: 保持提示不变。

提示示例

类别 数据 提示
图像描述 COCO, Flickr30K, TextCaps, TextOCR-GPT4V 用一句话或短语简单描述图像。<br />提供你所看到的简要总结。<br />提供图像的简短描述。<br />为图像写一个简短的描述。<br />简要描述图像的内容。
开放式视觉问答 VQAv2, OKVQA, OCRVQA, GQA, TextVQA, VGQA, DocVQA, DVQA 问题 直接用短句或短语回答问题。
选择题视觉问答 A-OKVQA 为以下问题选择正确选项:问题

数据格式

视觉指令调优数据格式化为LLaVA的训练格式,图像可在官方网站或images文件夹中找到。图像不得用于其他目的,并应遵守原始许可,可能会在数据集所有者要求时随时下架。

搜集汇总
数据集介绍
main_image_url
构建方式
在构建DataOptim数据集时,研究者们精心整合了20个公开的多模态数据集,涵盖图像描述、视觉问答、基础定位以及GPT生成数据等多个类别。通过统一的策略对原始数据进行重新格式化,例如为图像描述任务设计了五种简洁的指令模板并随机采样,为开放式视觉问答添加了要求简短回答的指令后缀,并为多项选择题库引入了特定的提示结构。这种构建方式旨在将异构数据源转化为适合多模态大语言模型训练的标准化指令调优格式,从而提升数据利用效率。
使用方法
使用DataOptim数据集时,用户可直接通过Hugging Face平台访问其存储库,其中训练数据已按照LLaVA项目的格式进行组织。数据文件主要存放于指定的‘data’文件夹内,而对应图像需依据引用从原始官方来源或提供的‘images’文件夹中获取,使用时务必严格遵守各原始数据集的许可协议。该数据集专为多模态大语言模型的视觉指令调优阶段设计,研究人员可将其直接加载至训练流程中,以高效利用其经过优化的指令-响应对,从而专注于模型性能的提升与评估。
背景与挑战
背景概述
在人工智能迈向多模态融合的时代背景下,北京智源人工智能研究院(BAAI)于近期推出了DataOptim数据集,旨在为多模态大语言模型(MLLMs)的高效训练提供优化解决方案。该数据集汇聚了图像描述、视觉问答、指代表达及GPT生成数据等20个公开数据集,总计涵盖约97.4万张图像与1120万条样本,覆盖了从基础视觉理解到复杂推理的广泛任务。DataOptim的构建不仅整合了COCO、VQAv2、ScienceQA等经典资源,还融入了LLaVA-Instruct-150K等前沿生成数据,其核心研究问题聚焦于如何通过精心设计的指令模板与数据策略,提升MLLMs在跨模态指令跟随与知识泛化方面的性能,对推动视觉-语言协同学习的发展具有重要影响力。
当前挑战
DataOptim数据集致力于应对多模态大语言模型训练中数据利用效率低下的核心挑战,其首要难题在于如何统一异构数据源(如图像描述、视觉问答、选择题等)的格式与语义表示,以支持模型在多样任务间的稳定泛化。在构建过程中,团队需克服数据规模庞大带来的存储与处理压力,同时精心设计针对不同任务类型的指令模板,例如为开放式视觉问答添加简洁回答引导,或为选择题构建选项识别框架,以确保指令的清晰性与一致性。此外,数据集中存在的图像重复与授权合规问题,亦对资源的长期可用性与法律安全性构成了潜在考验。
常用场景
经典使用场景
在视觉-语言多模态研究领域,DataOptim数据集通过整合20个公开视觉问答与图像描述数据集,为多模态大语言模型的指令微调提供了标准化数据源。其经典使用场景在于支持模型进行端到端的视觉理解与生成任务训练,例如基于图像的开放式问答、细粒度物体定位以及复杂场景描述。该数据集采用精心设计的提示模板,确保了数据格式的统一性,从而提升了模型在跨任务泛化能力方面的表现。
解决学术问题
DataOptim有效解决了多模态学习中数据分散与格式不统一的学术难题。通过聚合大规模、多样化的视觉-语言对齐数据,该数据集支持研究者探索模型在零样本迁移、少样本学习以及跨模态推理等方面的性能瓶颈。其意义在于降低了数据预处理成本,促进了标准化评估基准的建立,为视觉-语言联合表征学习提供了可靠的数据基础,推动了多模态人工智能向更高效、更通用的方向发展。
实际应用
在实际应用层面,DataOptim数据集为智能客服、无障碍技术、教育辅助等场景提供了核心训练资源。例如,基于该数据集训练的模型能够解析医疗影像中的文本信息,辅助生成诊断报告;在自动驾驶领域,可增强车辆对交通标志与场景关系的理解能力。此外,其优化的指令格式可直接适配工业级多模态系统,提升人机交互的准确性与自然度。
数据集最近研究
最新研究方向
在视觉-语言多模态大模型领域,DataOptim数据集作为集成化的数据优化方案,正推动着高效训练策略的前沿探索。该数据集整合了20个公开视觉指令调优数据集,涵盖图像描述、视觉问答、定位及GPT-4生成数据,其核心研究方向聚焦于通过数据筛选、提示工程与多任务融合,提升模型在复杂场景下的泛化能力与推理效率。当前热点围绕低资源适应性、跨模态对齐以及指令跟随的鲁棒性展开,相关研究致力于减少数据冗余并增强模型对细粒度视觉语义的理解。这一数据集的构建为多模态模型的规模化训练提供了标准化基础,对推动具身智能、文档分析与科学问答等应用具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作