UnifiedVisual-240K

github2025-09-19 更新2025-09-21 收录

下载链接：

https://github.com/fnlp-vision/UnifiedVisual

下载链接

链接失效反馈

官方服务：

资源简介：

UnifiedVisual-240K是一个包含24万样本的统一视觉-语言数据集，明确耦合了多模态理解和生成，使两者能够相互增强。该数据集整合了多样化的视觉/文本输入和输出，将推理嵌入生成中，生成嵌入推理中。实验表明，在该数据集上训练的模型在各种任务上表现强劲，并展现出理解与生成之间的明显相互增强。

UnifiedVisual-240K is a unified vision-language dataset containing 240,000 samples. It explicitly couples multimodal understanding and generation, enabling mutual enhancement between the two modalities. This dataset integrates diverse visual and text inputs and outputs, embedding reasoning into generation and vice versa. Experiments demonstrate that models trained on this dataset achieve strong performance across various tasks, and exhibit clear mutual enhancement between understanding and generation.

创建时间：

2025-09-18

原始信息汇总

UnifiedVisual-240K 数据集概述

数据集简介

UnifiedVisual-240K 是一个统一的视觉-语言数据集，包含 240K 个高质量样本，旨在显式耦合多模态理解和生成，实现两种能力之间的相互增强。

数据集规模

总样本量：240K
理解样本：120K（60K LLaVA-CoT，60K CoT-Collection）
生成样本：约 120K

生成子集构成

MM Internet：29,399
Image Editing：9,024
Image Generation：22,755
Image Correction：20,000
MM Reasoning (O)：21,000
MM Reasoning (T)：7,276
MM Reasoning (MM)：17,761

任务覆盖范围

视觉生成
多模态推理（图像/文本/多模态输入）
精选多模态互联网数据

方法框架

视觉生成

图像生成：通过主题和场景生成、类别和图像生成两种路径提升复杂性
图像编辑：将简单编辑提示重写为细致指令，生成原理澄清目标
图像校正：检测并修复图像与描述之间的不一致性，合成反事实和原理

多模态推理

MM Reasoning (O)：原理参考原始输入图像的细节
MM Reasoning (MM)：对图像+文本输入的联合推理
MM Reasoning (T)：需要生成图像辅助推理的纯文本问题

多模态互联网数据

使用强大的 VLLM 进行多视角过滤，从网络精选交错文本-图像数据

性能表现

多模态理解：在 RealWorldQA、MMVP、ScienceQA、VStar、MME 和 POPE 上优于基线
多模态生成：在 MS-COCO CLIP 分数和 GenEval 总体上具有竞争力或更优性能
文本推理：在 AlpacaEval 上相对于 NormalData 训练获得更高胜率

引用信息

bibtex @misc{wang2025unifiedvisualframeworkconstructingunified, title={UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets}, author={Pengyu Wang and Shaojun Zhou and Chenkun Tan and Xinghao Wang and Wei Huang and Zhen Ye and Zhaowei Li and Botian Jiang and Dong Zhang and Xipeng Qiu}, year={2025}, eprint={2509.14738}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.14738}, }

搜集汇总

数据集介绍

构建方式

在视觉-语言多模态融合研究领域，UnifiedVisual-240K采用协同式框架构建，通过三大支柱实现理解与生成的深度融合。视觉生成部分融合主题场景生成与图像编辑修正，借助GPT-4生成推理链并调用DALL·E-3生成图像；多模态推理模块通过图像检索与文本推理的交叉验证构建三元组样本；网络多模态数据则通过强VLLM模型进行多视角过滤，确保数据连贯性与可回答性。

特点

该数据集的核心特征体现在其双向增强机制与多粒度任务覆盖。240K样本中精确平衡120K理解样本与120K生成样本，涵盖视觉生成、多模态推理和网络精选数据三大维度。其特色在于通过推理链显式耦合多模态理解与生成任务，支持图像生成、编辑、修正及文本推理等复杂场景，且所有数据均经过CLIP过滤与多模型协同验证，保障了样本的语义一致性与逻辑严密性。

使用方法

研究者可依托该数据集训练统一视觉语言模型，实现多任务协同学习。生成类任务可直接调用图像-文本对进行端到端训练；理解任务需结合推理链进行分步解析；对于联合任务，建议采用交替训练策略，先进行多模态推理预训练再微调生成模块。数据集支持HuggingFace平台直接加载，且提供细粒度子集划分便于针对性实验。

背景与挑战

背景概述

随着统一视觉大语言模型的快速发展，传统数据集将理解与生成任务相互割裂的局限性日益凸显。UnifiedVisual-240K数据集由复旦大学自然语言处理团队于2025年提出，旨在构建协同促进多模态理解与生成的统一框架。该数据集包含24万高质量样本，通过多模态推理链显式耦合视觉理解与生成任务，推动了视觉-语言模型在推理能力与图像合成间的协同增强，为多模态人工智能研究提供了新的范式。

当前挑战

该数据集致力于解决多模态任务中理解与生成能力割裂的核心挑战，包括视觉推理与图像生成的协同优化、跨模态语义一致性保持等难题。在构建过程中，研究团队需要克服多源数据融合的复杂性，包括通过GPT-4生成高质量推理链、利用DALL·E-3和Stable Diffusion生成语义一致的图像，以及设计多维度过滤机制确保网络数据的质量与一致性。

常用场景

经典使用场景

在视觉-语言多模态研究领域，UnifiedVisual-240K数据集通过其独特的协同框架，为统一视觉语言模型的训练提供了经典范例。该数据集将多模态理解与生成任务有机结合，使得模型能够同时处理图像生成、图像编辑、多模态推理等复杂场景。研究者利用其24万高质量样本，构建出能够双向增强理解与生成能力的统一模型，显著提升了多模态任务的综合性能。

衍生相关工作

该数据集催生了多个重要的衍生研究方向，包括基于推理链的视觉生成方法、多模态指令微调技术以及统一视觉语言模型的架构创新。相关研究工作在MS-COCO、GenEval等基准测试中取得了突破性进展，同时推动了多模态推理与生成协同优化理论的发展。这些成果为构建更强大的多模态基础模型奠定了坚实的数据基础和方法论支撑。

数据集最近研究