inclusionAI/ZwZ-RL-VQA

Name: inclusionAI/ZwZ-RL-VQA
Creator: inclusionAI
Published: 2026-05-04 12:16:12
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/inclusionAI/ZwZ-RL-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

ZwZ-RL-VQA是一个通过区域到图像蒸馏(R2I)方法生成的合成数据集，专门用于训练多模态大语言模型(MLLMs)进行细粒度感知任务，而无需在测试时使用工具。该数据集包含37,000个样本，源图像来自SA-1B、LAION、MetaCLIP、Visual Genome、CC12M和STPLS3D等多个数据集，图像分辨率大多高于1000×1000像素，裁剪区域通常小于完整图像面积的10%。数据集包含多种问题类型，如计数、OCR、颜色、结构、材料和识别等。数据生成过程使用了强大的教师模型(Qwen3-VL-235B和GLM-4.5V)进行问题生成和回答生成，并通过严格的共识过滤(>75%教师模型一致同意)和质量控制步骤确保数据质量。数据集主要用于多模态大语言模型的强化学习研究，以及将工具使用能力蒸馏到单次传递模型的研究。

ZwZ-RL-VQA is a synthetic dataset generated via the Region-to-Image (R2I) distillation method, specifically tailored for training multimodal large language models (MLLMs) on fine-grained perception tasks without relying on tools during inference. This dataset consists of 37,000 samples, with source images sourced from multiple datasets including SA-1B, LAION, MetaCLIP, Visual Genome, CC12M and STPLS3D. Most of the source images have a resolution exceeding 1000×1000 pixels, and the cropped regions typically account for less than 10% of the total image area. The dataset encompasses a wide range of question types, such as counting, OCR, color, structure, material and recognition-related tasks. During the data generation pipeline, two powerful teacher models (Qwen3-VL-235B and GLM-4.5V) are utilized for both question generation and answer generation. Strict consensus filtering (requiring >75% agreement across all teacher models) and quality control procedures are adopted to guarantee data quality. This dataset is mainly applied to reinforcement learning research on multimodal large language models, as well as studies on distilling tool-use capabilities into single-pass models.

提供机构：

inclusionAI

搜集汇总

数据集介绍

构建方式

ZwZ-RL-VQA数据集通过独创的“区域到图像蒸馏”范式构建，旨在将推理时依赖工具放大的能力内化至多模态大语言模型中。其生成流程分为两步：首先，利用Qwen3-VL-235B与GLM-4.5V等强教师模型对高分辨率图像的微观裁剪区域生成细粒度问答对；随后，将区域级监督信息与显式边界框叠加，蒸馏回完整图像，使模型在单次前向传播中即可获得放大效果。数据源涵盖SA-1B、LAION、Visual Genome等大规模图像库，经严格共识过滤与难度筛选，最终保留约3.7万个高质量样本。

特点

该数据集的核心特点在于其“化工具为内功”的设计哲学，将传统需要多次推理的缩放操作简化为一次前向传播。样本图像分辨率普遍超过1000×1000，而裁剪区域多小于全图面积的10%，聚焦于计数、OCR、颜色、结构、材质与识别六类细粒度视觉任务。通过教师模型间超过75%投票一致性的质量控制与基线模型正确率低于50%的难度筛选，确保了问答对的准确性与挑战性。训练后的ZwZ系列模型在多个细粒度感知基准上表现显著提升，验证了该蒸馏策略的有效性。

使用方法

该数据集主要用于多模态大语言模型的强化学习，尤其适用于DAPO或GRPO等强化学习算法框架，以蒸馏工具使用能力至单次推理模型。使用者需先下载分卷压缩的`images.tar.gz.*`文件，并通过`cat`命令合并解压至工作目录。如需复现数据生成过程，可额外下载原始图像文件，并参考官方提供的`create_vqa.py`合成脚本。数据以标准VQA格式组织，可直接用于视觉问答任务的训练与评估。

背景与挑战

背景概述

ZwZ-RL-VQA数据集由Wei等研究团队于2026年发布，旨在应对多模态大语言模型在细粒度视觉感知任务中的局限性。传统方法依赖推理阶段的外部工具（如缩放操作）来获取局部细节，这不仅增加了计算开销，还限制了模型在单次前向传播中的感知能力。该数据集基于区域到图像蒸馏范式，通过将强教师模型（如Qwen3-VL-235B）在微观裁剪区域生成的问答知识蒸馏至完整图像，使模型内化缩放效益。数据集包含37k个高质量样本，在多个细粒度基准（如ZoomBench）上显著提升了模型性能，为无需测试时工具调用的细粒度多模态感知研究提供了关键训练资源。

当前挑战

该数据集主要挑战包括：1）领域问题层面，多模态模型在理解高分辨率图像中的微小物体、密集文本或精细属性时，常因全局视觉特征掩盖局部细节而性能下降，亟需一种将局部推理能力嵌入模型参数而非依赖外部工具的解决方案；2）构建过程层面，采用强教师模型生成问答对的一致性标准差极高，需设计严格的共识过滤机制（如6/8教师投票阈值）确保质量，同时裁剪区域微小（通常小于完整图像面积的10%），导致语义歧义性上升，需通过视觉定位框叠加消解参照歧义。此外，需筛选基线模型（Qwen3-VL-8B）能简单回答的样本以避免冗余，平衡了数据难度与多样性。

常用场景

经典使用场景

ZwZ-RL-VQA数据集专为多模态大语言模型的细粒度感知能力而设计，其最经典的使用场景在于通过区域到图像蒸馏技术，将原本依赖推理时工具（如动态缩放）的精细视觉理解任务转化为模型自身的单次前向推理能力。研究者常利用该数据集对MLLM进行强化学习训练，使模型在无需外部缩放工具的情况下，能够一次性准确回答关于高分辨率图像中微小区域的计数、OCR、颜色、材质、结构和类别识别等复杂问题。数据集提供了超过3.7万条合成问答样本，覆盖SA-1B、LAION、Visual Genome等丰富来源的高分辨率图像，裁剪区域多小于完整图像面积的10%，确保了训练样本对细粒度信息的高度聚焦。

实际应用

在实际应用层面，ZwZ-RL-VQA训练出的模型能够高效服务于需要高分辨率图像精确分析的多个领域。例如在遥感图像解译中，模型可一次性识别卫星影像中极小规模的建筑物、车辆或植被斑块；在工业质检场景中，能够精准检测产品表面微米级别的瑕疵；在文档分析和医学影像诊断里，模型可同时理解整体布局和局域微小文字或病灶细节。由于无需在推理时调用外部缩放工具，这些模型被部署于资源受限的边缘设备或实时系统（如无人机巡检、移动端视觉问答）时，能在保持高准确度的前提下显著降低计算开销和响应时间，推动了多模态AI在精密制造、智慧医疗和自动驾驶等实际场景中的落地。

衍生相关工作

基于ZwZ-RL-VQA数据集，学术界衍生了一系列重要研究工作。其中最直接的成果是ZwZ-4B、ZwZ-7B和ZwZ-8B三个多模态大语言模型，它们通过该数据集进行强化学习后，在ZoomBench和VStar等细粒度感知基准上取得了当时最优表现。此外，数据集的合成方法——区域到图像蒸馏（R2I）被扩展至其他视觉语言任务，例如部分研究者将其与视觉定位（Visual Grounding）结合，开发出显式边界框引导的推理技术。数据集采用的教师集成共识过滤和难度筛选策略也被后续工作借鉴，用于构建高质量的合成训练数据。ZoomBench基准测试本身也作为细粒度感知能力标准化评估工具被广泛引用，进一步推动了该领域研究范式的统一与进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集