ZwZ-RL-VQA

Hugging Face2026-02-23 更新2026-02-24 收录

下载链接：

https://huggingface.co/datasets/inclusionAI/ZwZ-RL-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

ZwZ-RL-VQA 是一个包含 74,000 个高质量视觉问答（VQA）对的数据集，专为训练多模态大语言模型（MLLMs）在细粒度感知任务上的表现而设计。该数据集通过区域到图像蒸馏（R2I）方法生成，将“缩放”从推理时工具转变为训练时原语。数据集中的图像主要来自 SA-1B、LAION、MetaCLIP、Visual Genome、CC12M 和 STPLS3D 等来源，分辨率大多高于 1000×1000，裁剪比例小于完整图像面积的 10%，以确保对细粒度细节的关注。问题类型包括计数、OCR、颜色、结构、材料和识别等。数据集经过严格的质量控制，包括教师模型共识过滤（>75% 一致）和难度过滤（拒绝基线模型正确率超过 50% 的样本）。数据集的目的是用于多模态大语言模型的强化学习（如 DAPO/GRPO）以及研究将工具使用能力蒸馏到单次推理模型中。

创建时间：

2026-02-12

搜集汇总

数据集介绍

构建方式

在视觉语言模型追求细粒度感知的背景下，ZwZ-RL-VQA数据集的构建采用了创新的区域到图像蒸馏方法。该流程首先利用强大的教师模型，如Qwen3-VL-235B和GLM-4.5V，对从高分辨率源图像中裁剪出的微观区域生成详尽的视觉问答对，这些裁剪区域通常占原图面积不足百分之十，以确保对细节的聚焦。随后，通过严格的共识过滤机制，仅保留获得超过百分之七十五教师模型投票一致的问答对，并将区域级的监督信息蒸馏回带有显式边界框标注的全尺寸图像中，从而将“放大”这一推理阶段的操作转化为模型训练的内在能力。

特点

该数据集的核心特征在于其专注于提升模型在无需借助外部工具情况下的细粒度视觉理解能力。它包含了七万四千个经过高质量筛选的视觉问答对，其图像主要来源于SA-1B、LAION等多个公开数据集，且分辨率普遍高于1000×1000像素，为模型提供了丰富的视觉细节。数据覆盖了计数、光学字符识别、颜色、结构、材质及物体识别等多种问题类型，并通过覆盖在图像上的边界框有效解决了指代模糊性问题，确保了问答对在视觉上的精确锚定。

使用方法

该数据集旨在用于多模态大语言模型的强化学习训练，以将工具使用能力蒸馏至单次前向传播的模型中。使用者需下载并合并提供的分卷压缩图像文件，通过命令行工具进行解压以获取训练所需的合成图像。若希望复现数据生成过程，可进一步解压原始图像文件，并参考项目仓库中提供的合成脚本。训练所得的模型，如ZwZ系列，在ZoomBench、HR-Bench等细粒度感知基准测试中展现出了显著的性能提升，验证了该数据集在推动模型内部化细粒度视觉推理方面的有效性。

背景与挑战

背景概述

在视觉语言模型（VLM）的演进历程中，实现细粒度感知能力一直是核心挑战。ZwZ-RL-VQA数据集应运而生，由inclusionAI团队于2026年提出，旨在通过区域到图像蒸馏（R2I）方法，将推理阶段的‘缩放’操作转化为训练阶段的固有能力。该数据集构建于SA-1B、LAION、Visual Genome等多个高质量多模态数据集之上，包含7.4万对经过严格共识过滤的视觉问答（VQA）样本，专门用于增强多模态大语言模型（MLLM）在无需外部工具辅助下的精细视觉理解。其创新性的‘无缩放缩放’（ZwZ）范式，通过教师模型在微裁剪区域生成监督信号并蒸馏至完整图像，显著推动了模型在单次前向传播中实现高效细粒度感知的研究进展。

当前挑战

ZwZ-RL-VQA数据集致力于解决视觉问答领域中细粒度感知的固有难题，例如对微小区域中计数、OCR、材质识别等任务的精确理解。这些任务传统上依赖推理时的外部缩放工具，导致效率低下且部署复杂。在数据集构建过程中，挑战主要集中于生成高质量、高一致性的监督信号。这需要协调多个强大教师模型（如Qwen3-VL-235B和GLM-4.5V）进行协同生成与严格过滤，确保问答对在教师集合中获得超过75%的共识，并排除基线模型易于回答的简单样本，以保障数据的难度与有效性。同时，将区域标注信息蒸馏回原始高分辨率图像时，需解决指代歧义并维持视觉上下文的完整性，这对数据合成管道的设计提出了极高要求。

常用场景

经典使用场景

在视觉语言模型的研究领域，ZwZ-RL-VQA数据集为细粒度感知任务提供了关键的训练资源。该数据集通过区域到图像蒸馏技术，将高分辨率图像中的微观裁剪区域与高质量问答对相结合，使得模型能够在无需推理时工具辅助的情况下，直接学习识别图像中的精细细节。其经典使用场景集中于训练多模态大语言模型，以提升在计数、光学字符识别、颜色、结构、材质及物体识别等复杂视觉问答任务上的性能，实现单次前向传播即可完成细粒度理解。

解决学术问题

ZwZ-RL-VQA数据集主要解决了多模态学习中细粒度感知能力不足的学术难题。传统模型往往依赖推理时的缩放工具来捕捉细节，导致计算效率低下且泛化能力受限。该数据集通过蒸馏强教师模型的区域级监督信号至完整图像，使模型能够内化缩放优势，从而在单一前向传递中实现高效的细粒度分析。这不仅推动了视觉语言模型在微细视觉理解方面的理论进展，还为消除工具依赖、提升模型端到端性能提供了切实可行的数据驱动方案。

衍生相关工作

围绕ZwZ-RL-VQA数据集，已衍生出一系列重要的研究工作。基于该数据训练的ZwZ-4B/7B/8B模型系列，在ZoomBench、HR-Bench和VStar等基准测试中取得了显著性能提升，验证了区域到图像蒸馏方法的有效性。相关研究进一步探索了如何将工具使用能力蒸馏至单次推理模型，促进了多模态强化学习算法如DAPO/GRPO的发展。同时，配套的ZoomBench评估数据集也为细粒度感知模型的标准化评测提供了重要基础设施。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集