VARGPT_datasets

github2025-01-22 更新2025-01-23 收录

下载链接：

https://github.com/VARGPT-family/VARGPT

下载链接

链接失效反馈

官方服务：

资源简介：

VARGPT数据集用于训练VARGPT模型，支持多模态理解和生成任务，包括图像描述、视觉问答（VQA）、文本到图像生成等。

The VARGPT Dataset is utilized for training the VARGPT model, supporting multimodal understanding and generation tasks including image captioning, visual question answering (VQA), and text-to-image generation.

创建时间：

2025-01-21

原始信息汇总

VARGPT 数据集概述

数据集简介

VARGPT 是一个用于视觉自回归多模态大语言模型的数据集，支持图像、视频和文本的统一生成与理解。该数据集由北京大学的研究团队开发，旨在通过多模态数据的联合训练，提升模型在图像描述、视觉问答（VQA）、文本到图像生成等任务中的表现。

数据集发布信息

发布日期：2025年1月22日
数据集版本：7B+2B
数据集地址：VARGPT_datasets

数据集结构

VARGPT 数据集分为三个阶段进行训练数据的准备：

第一阶段（stage1-pt）：
- 包含1.28M的预训练指令微调数据集，用于VARGPT的初步训练。
第二阶段（stage2-sft）：
- llava_v1_5_mix665k：基于LLaVA-1.5的训练数据。
- llava_onevision_508k：从LLaVA-onevision Dataset中采样。
- ImageNet-Instruct-5k：从第三阶段的ImageNet-Instruct-130k数据集中采样。
第三阶段（stage3-sft）：
- ImageNet-Instruct-130k
- ImageNet-Instruct-1270k

图像数据下载与处理

VARGPT 数据集使用了多个公开的图像数据集，包括：

ImageNet：ImageNet
COCO：train2017
GQA：images
OCR-VQA：images
TextVQA：train_val_images
VisualGenome：part1, part2
LLaVA-Onevision Dataset：LLaVA-Onevision Dataset

数据集使用

模型推理代码：提供了多模态理解和文本到图像生成的推理代码。
性能评估：使用lmms-eval工具进行模型性能评估。

引用

如需引用该数据集，请使用以下格式： bibtex @misc{zhuang2025vargptunifiedunderstandinggeneration, title={VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model}, author={Xianwei Zhuang and Yuxin Xie and Yufan Deng and Liming Liang and Jinghan Ru and Yuguo Yin and Yuexian Zou}, year={2025}, eprint={2501.12327}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.12327}, }

致谢

VARGPT 数据集基于多个开源项目，包括LLaVA-1.5、VAR、LLaVA-NeXT等。感谢所有作者的工作。

搜集汇总

数据集介绍

构建方式

VARGPT数据集的构建基于多模态大语言模型的统一理解与生成任务，采用了分阶段的指令微调策略。首先，通过ImageNet数据集（1.28M图像）进行预训练，随后结合LLaVA-1.5、LLaVA-OneVision等数据集进行第二阶段的指令微调。第三阶段则进一步扩展了ImageNet-Instruct数据集，涵盖了130k和1270k的样本。数据集的构建过程中，图像数据来源于多个公开数据集，如COCO、GQA、OCR-VQA等，并通过脚本匹配图像路径与标签，确保数据的一致性与完整性。

特点

VARGPT数据集的特点在于其多模态的统一理解与生成能力，涵盖了图像、视频和文本等多种模态。数据集不仅支持图像描述、视觉问答等理解任务，还具备文本到图像生成的生成能力。其独特之处在于将理解与生成任务统一在一个模型中，通过预测下一个token实现视觉理解，预测下一个尺度实现视觉生成。此外，数据集的分阶段设计使得模型能够逐步适应复杂的多模态任务，具备较强的扩展性与适应性。

使用方法

使用VARGPT数据集时，首先需通过Hugging Face平台下载数据集，并按照提供的脚本匹配图像路径与标签。数据集的训练分为三个阶段，分别对应不同的指令微调任务。用户可通过提供的推理代码进行多模态理解与生成任务的测试，如执行`inference/understanding_vargpt.py`进行图像描述或视觉问答任务，或执行`inference/generation_vargpt.py`进行文本到图像生成任务。此外，用户还可通过`lmms-eval`工具对模型性能进行评估，确保模型在多模态任务中的表现达到预期。

背景与挑战

背景概述

VARGPT数据集由北京大学的研究团队于2025年发布，旨在推动视觉自回归多模态大语言模型的发展。该数据集的核心研究问题在于如何实现图像、视频和文本等多模态数据的统一理解与生成。VARGPT通过三阶段指令微调，支持图像描述、视觉问答、文本生成图像等任务，显著提升了多模态模型的生成与理解能力。该数据集的发布为多模态人工智能领域提供了重要的研究工具，推动了相关技术的进步。

当前挑战

VARGPT数据集在构建过程中面临多重挑战。首先，多模态数据的统一理解与生成需要处理复杂的模态间交互，这对模型的架构设计提出了极高要求。其次，数据集的构建依赖于大规模高质量的多模态数据，尤其是图像数据的多样性和标注质量直接影响模型的生成效果。此外，如何在不同模态之间实现高效的指令微调，确保模型在生成与理解任务中的平衡，也是当前亟待解决的难题。未来，研究团队计划通过扩展数据规模和优化模型架构来进一步提升VARGPT的性能。

常用场景

经典使用场景

VARGPT数据集在视觉自回归多模态大语言模型中的应用尤为突出，尤其是在图像描述生成、视觉问答（VQA）以及文本到图像生成等任务中。通过将视觉理解和生成任务统一在一个模型中，VARGPT能够同时处理多种模态的输入和输出，极大地提升了多模态任务的效率和准确性。其经典使用场景包括对复杂视觉内容的理解与生成，例如从图像中提取语义信息并生成相应的文本描述，或根据文本提示生成高质量的图像。

衍生相关工作

VARGPT数据集的发布催生了一系列相关研究工作，尤其是在多模态大语言模型的优化和应用方面。基于VARGPT的研究工作主要集中在提升模型的视觉生成能力、扩展多模态任务的覆盖范围以及优化模型的训练效率。例如，一些研究通过引入更大规模的训练数据和更复杂的模型架构，进一步提升了VARGPT在视觉生成任务中的表现。此外，VARGPT还为其他多模态模型的研究提供了宝贵的参考，推动了该领域的快速发展。

数据集最近研究