VQ-VA World
收藏arXiv2025-11-26 更新2025-11-27 收录
下载链接:
https://chenhuigou.github.io/VQ-VA-World/
下载链接
链接失效反馈官方服务:
资源简介:
VQ-VA World是由字节跳动种子等机构联合构建的大规模视觉问答数据集,专注于提升模型的视觉问题-视觉回答能力。该数据集包含180万高质量交错图像-文本样本,涵盖世界知识、设计知识和推理三大领域,通过智能代理流水线从网络文档中挖掘具有语义关联的图像对并生成自然语言问题。该数据集旨在解决开放域视觉生成任务中的知识推理瓶颈,推动开源模型在需要现实世界知识和多步推理的视觉问答任务上的发展。
提供机构:
字节跳动种子, 莫纳什大学, 清华大学, 加州大学圣克鲁兹分校, 阿德莱德大学
创建时间:
2025-11-26
原始信息汇总
VQ-VA World 数据集概述
数据集基本信息
- 数据集名称:VQ-VA World
- 任务类型:视觉问答-视觉回答(Visual Question–Visual Answering,VQ-VA)
- 核心功能:生成图像(而非文本)来回答视觉问题
数据规模与构建
- 数据量:约180万高质量交错的图像-文本样本
- 构建框架:基于智能代理管道的大规模定向数据构建
- 构建流程:
- 预处理阶段:对网络交错文档进行分类和过滤
- 代理管道:包含检索器、过滤器、指令生成器、重写器和推理器五个子模块
评估基准
IntelligentBench
- 样本数量:360个人工精选示例
- 评估维度:
- 世界知识:171个样本
- 设计知识:88个样本
- 推理能力:101个样本
- 构建流程:
- 文档审查:专家从约3000个分类交错网络文档中筛选最佳图像对
- 问题设计:专家针对每个图像对设计自由形式问题
- 专家交叉评审:每个候选项目需获得一致认可
其他评估基准
- RISEBench:基于推理的图像编辑基准
- KRIS-Bench:基于推理的图像编辑基准
- G-Edit-Benchmark-EN:标准图像编辑基准
- Img-Edit:标准图像编辑基准
性能表现
IntelligentBench 结果
- Ours模型:
- 世界知识:50.58
- 设计知识:57.95
- 推理能力:52.97
- 总体得分:53.06
- 对比模型:
- LightFusion(原始):7.78
- UniWorld-V1:1.94
- NanoBanana:81.67
- GPT-Image:82.64
资源发布
- 完整模型权重
- 数据集
- 构建管道
研究意义
通过发布完整的模型权重、数据集和管道,旨在促进VQ-VA领域的未来研究。
搜集汇总
数据集介绍

构建方式
在视觉问答领域面临数据稀缺的背景下,VQ-VA World数据集通过创新的智能代理流水线实现了大规模高质量数据构建。该流水线包含五个核心模块:检索器从网络交错文档中识别具有语义关联的图像对;指令生成器基于首张图像生成需要知识推理的开放式问题;过滤器通过多维度评分机制剔除低质量样本;重写器增强问题表述的多样性;推理器生成详细的思维链解释。这套系统部署于网络规模,成功采集了180万组高质量图像-文本交错样本,覆盖世界知识、设计知识和推理三大领域。
特点
该数据集在视觉问答领域展现出独特优势,其样本设计突破了传统图像编辑数据集的局限,强调知识驱动和语义层面的转换。每个训练三元组包含问题图像、问题文本和答案图像,要求模型具备跨模态理解和创造性生成能力。数据覆盖范围广泛,包含43.69%的世界知识样本、30.37%的设计知识样本和24.35%的推理样本,概念词汇量达到87.9K,远超同类数据集。特别值得关注的是,所有样本均源自真实网络内容,确保了数据的现实性和多样性。
使用方法
该数据集支持两阶段训练策略,首先利用完整数据集进行持续预训练以增强基础能力,随后在高质量子集上进行监督微调以提升生成质量。研究实践表明,将VQ-VA World数据以25%的采样比例融入LightFusion模型的整体训练集,经过45,000步微调后,在IntelligentBench基准上的表现从7.78提升至53.06。对于具体应用,模型可配置为先输出推理内容再生成图像的工作流程,在知识密集型任务中采用双重分类器自由引导策略,图像引导尺度设为2,文本引导尺度设为4,时间偏移固定为4,确保生成质量与指令遵循的平衡。
背景与挑战
背景概述
VQ-VA World数据集由字节跳动Seed团队与多所高校于2025年联合构建,致力于推动视觉问答-视觉回答这一新兴研究方向的发展。该数据集聚焦于解决多模态生成模型在响应视觉问题时生成图像答案的核心需求,旨在弥合开源模型与闭源系统在知识推理和语义生成能力上的显著差距。通过构建包含180万高质量样本的大规模训练资源,VQ-VA World为开放社区提供了首个系统性支持视觉问答-视觉回答任务的数据基础,显著提升了开源模型在复杂语义理解和跨模态生成任务中的表现。
当前挑战
视觉问答-视觉回答领域面临双重挑战:在任务层面,模型需同时处理输入图像的语义解析、外部知识调用和多步骤逻辑推理,才能生成符合上下文逻辑的视觉答案;在数据构建层面,传统图像编辑数据集缺乏对自由形式生成任务的支持,而大规模高质量样本的采集需克服语义关联弱、噪声干扰强等难题。VQ-VA World通过设计五模块智能流水线,实现了从海量网络文档中精准提取具有知识关联的图像对,并构建包含世界知识、设计知识和推理能力的多维评估体系,为推进开放生态中的复杂视觉推理任务奠定基础。
常用场景
经典使用场景
在视觉问答领域,VQ-VA World数据集通过构建大规模、高质量的图像-文本交织样本,为模型训练提供了丰富的知识驱动场景。其核心应用聚焦于视觉问题-视觉回答任务,即模型根据输入图像和问题生成符合语义逻辑的答案图像。例如,当输入破损窗户图像并询问地面可能存在的物体时,模型需结合常识推理生成玻璃碎片的视觉化回答,这要求模型具备跨模态理解与创造性生成能力。
解决学术问题
该数据集有效解决了开放源码模型在知识密集型视觉生成任务中的性能瓶颈问题。传统图像编辑数据集侧重于像素级操作,而VQ-VA World通过引入世界知识、设计知识与推理能力三大维度,填补了自由形式视觉生成领域的数据空白。其实验结果表明,基于该数据训练的LightFusion模型在IntelligentBench评估中得分从7.78提升至53.06,显著缩小了与私有模型的性能差距,为多模态推理研究提供了关键基础设施。
衍生相关工作
该数据集催生了多项创新性研究工作,包括基于智能体流水线的大规模数据构建方法、多维度评估基准IntelligentBench,以及融合推理轨迹的 quadruplet 数据格式。相关成果推动了UniWorld-V1、BAGELThink等统一多模态模型的演进,并在RISEBench、KRIS-Bench等推理密集型基准测试中取得突破性进展。这些衍生工作共同构建起开放视觉问答研究的生态系统。
以上内容由遇见数据集搜集并总结生成



