VGR-SFT
收藏arXiv2025-06-14 更新2025-06-17 收录
下载链接:
https://huggingface.co/BytedanceDouyinContent/VGR
下载链接
链接失效反馈官方服务:
资源简介:
VGR-SFT数据集是一个大规模的视觉推理数据集,它包含了混合视觉接地和语言推理的推理数据。该数据集旨在帮助模型学习如何识别问题相关区域,并根据这些区域提供精确答案。VGR-SFT数据集的创建采用了三阶段数据构建流程:冷启动、拒绝采样和注释模型训练。数据集的内容是从现有的大型指令模型生成的,然后通过拒绝采样进行筛选和改进。该数据集的创建是为了帮助模型在推理过程中自由地关注任意的视觉区域,从而提高多模态推理的准确性和可解释性。
The VGR-SFT dataset is a large-scale visual reasoning dataset that encompasses reasoning data blending visual grounding and language reasoning. It is designed to help models learn to identify problem-relevant visual regions and generate precise answers based on these regions. The construction of the VGR-SFT dataset follows a three-stage data pipeline: cold start, rejection sampling, and annotation model training. The dataset’s samples are first generated by existing large-scale instruction-tuned models, then filtered and refined via rejection sampling. This dataset is developed to enable models to freely attend to arbitrary visual regions during the reasoning process, thereby enhancing the accuracy and interpretability of multimodal reasoning.
提供机构:
中国科学院大学人工智能学院, 字节跳动公司
创建时间:
2025-06-14
原始信息汇总
VGR-SFT数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 视觉问答(visual-question-answering)
- 语言: 英文(en)
- 标签: 推理(reasoning)
数据集简介
VGR-SFT (Visual Grounded Reasoning - Supervised Fine-Tuning) 是一个大规模多模态推理数据集,首次尝试在多模态推理中显式建模视觉区域注意力。该数据集包含混合视觉基础和语言推理的数据,使模型能够在推理过程中自主关注任意视觉区域。
关键特性
- 联合视觉语言推理: 每个样本包含图像、问题、推理链和答案,并标注与推理相关的视觉区域
- 自主区域注意力: 数据集中的基础区域由模型自主生成,避免人工标注偏差
- 多样化领域覆盖: 包含科学问答、图表理解和文档视觉问答等多种任务类型
- 高效特征利用: 通过选择性特征重放机制,相比基线减少70%的视觉标记消耗
数据结构
数据组成
| 子数据集 | 数量 | 任务类型 |
|---|---|---|
| AI2D | 12.5k | 科学问答 |
| LLaVA-COCO | 12.3k | 通用视觉问答 |
| GQA | 39.2k | 通用视觉问答 |
| ChartQA | 11.2k | OCR |
| DVQA | 25.2k | OCR |
| DocVQA | 6.0k | OCR |
| OCRVQA | 51.6k | OCR |
| 总计 | 158.1k | - |
数据获取说明
由于版权限制,数据集不直接提供图像源文件。用户可从LLaVA-NeXT官方数据集下载所需图像,VGR-SFT数据中的image字段对应llava_next_raw_format目录中的相对路径。当前发布的是50k预览版本,完整数据将后续发布。
数据构建流程
- 冷启动数据生成: 使用Qwen2.5-VL-72B模型生成带有视觉区域标注的初始推理数据
- 拒绝采样优化:
- 格式验证: 确保答案可解析和坐标格式正确
- 正确性验证: 通过ANLS和商业模型API验证推理准确性
- 视觉基础验证: 裁剪区域并验证内容与标注对齐
- 数据扩展: 使用InternVL3-14B训练标注模型,整合Open-R1文本推理数据增强泛化能力,并用商业模型重写训练数据
引用
如需使用本数据集,请引用以下论文: bibtex @misc{wang2025vgr, title={VGR: Visual Grounded Reasoning}, author={Jiacong Wang and Zijian Kang and Haochen Wang and Haiyong Jiang and Jiawen Li and Bohong Wu and Ya Wang and Jiao Ran and Xiao Liang and Chao Feng and Jun Xiao}, year={2025}, eprint={2506.11991}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.11991}, }
搜集汇总
数据集介绍

构建方式
VGR-SFT数据集的构建采用了三阶段流程,首先利用现有视觉语言模型生成冷启动数据,随后通过拒绝采样机制进行质量筛选,最后通过定制训练的标注模型进行数据扩展。在冷启动阶段,Qwen2.5-VL-72B模型被用于生成包含视觉定位标注的推理链数据。拒绝采样阶段通过格式验证、答案正确性验证和视觉定位验证三重过滤机制,确保数据的准确性和一致性。最终通过专门训练的标注模型,将数据规模扩展至158K样本,覆盖科学问答、通用VQA、图表理解等七类视觉推理任务。
特点
该数据集首创性地将视觉定位信息融入多模态推理链,突破了传统纯文本推理的局限性。其核心特征体现在三个方面:通过<sot>...</eot>标签实现任意图像区域的自适应关注,支持模型在推理过程中动态检索关键视觉特征;采用混合视觉定位与语言演绎的标注格式,每个推理步骤均与特定图像区域建立显式关联;所有定位区域均由模型自主生成,避免了人工标注偏差。数据集覆盖AI2D、ChartQA等七个领域,包含158K高质量样本,在保持30%图像token使用量的情况下,能使模型在MMStar等基准上获得4.1-12.9的性能提升。
使用方法
使用该数据集时需配合VGR框架的视觉重放机制。模型在推理过程中监测<sot>[x1,y1,x2,y2]<eot>格式的定位信号,自动从特征池检索对应区域的视觉token并嵌入推理流程。训练时采用两阶段策略:先用LLaVA-558K数据进行预训练,再混合LLaVA-NeXT-770K和VGR-SFT数据进行监督微调。关键超参数包括:ViT学习率设为基学习率的1/10,Vicuna-7B模型微调学习率为2e-5。实际部署时可通过调整最大局部裁剪数量(默认20个)平衡计算效率与特征丰富度,并采用2×2池化压缩基础图像特征、4×4池化处理高分辨率局部特征以优化性能。
背景与挑战
背景概述
VGR-SFT数据集由字节跳动和中国科学院大学的研究团队于2025年提出,旨在解决多模态思维链推理中的视觉基础问题。该数据集的核心研究问题是提升多模态大语言模型(MLLM)在细粒度视觉感知和推理任务中的性能。传统方法主要依赖纯语言空间的推理,存在语言偏见且局限于数学或科学领域,而VGR-SFT通过引入视觉基础推理机制,使模型能够在推理过程中自主选择并关注图像中的关键区域,从而增强对图像细节的理解能力。该数据集的推出为多模态推理领域提供了新的研究方向,显著提升了模型在需要综合图像细节理解的任务中的表现。
当前挑战
VGR-SFT数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数据集需要解决多模态推理中的视觉基础问题,即如何让模型在推理过程中准确识别并利用图像中的关键区域,避免语言偏见和视觉信息的忽略。在构建过程中,挑战包括大规模数据的生成与筛选,确保推理数据和视觉基础标注的质量和一致性,以及如何通过拒绝采样和数据重写流程优化数据集,减少噪声和错误。此外,数据集的构建还需要平衡计算效率与视觉细节的保留,确保模型在推理时能够高效地利用视觉信息。
常用场景
经典使用场景
在视觉推理领域,VGR-SFT数据集通过结合视觉定位与语言推理,为多模态大语言模型(MLLM)提供了细粒度视觉感知能力。该数据集的核心应用场景在于解决传统方法中因纯语言空间推理导致的视觉细节理解不足问题,例如在科学图表解析(如AI2D)、文档问答(如DocVQA)等任务中,模型需动态定位图像关键区域并融合视觉特征进行多步推理。
解决学术问题
VGR-SFT通过引入视觉定位推理链,显著缓解了多模态任务中的语言偏差问题。其实验结果表明,在MMStar、ChartQA等基准测试中,模型仅需30%的图像标记即可实现性能提升(如ChartQA +12.9分),验证了视觉特征选择性回放对数学、科学领域复杂推理的有效性。该数据集首次实现了视觉区域注意力与语言演绎的显式建模,为多模态推理提供了可解释性框架。
衍生相关工作
VGR-SFT催生了多项创新研究:1)视觉强化学习框架Visual-RFT进一步优化了区域选择策略;2)混合偏好优化方法MMPR利用该数据集提升了开放域推理鲁棒性;3)自研标注模型InternVL3通过冷启动数据微调,将标注效率提升至传统方法的2.8倍。这些工作共同推动了视觉语言模型在细粒度理解与高效推理方向的发展。
以上内容由遇见数据集搜集并总结生成



