VGR
收藏Hugging Face2025-06-18 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/BytedanceDouyinContent/VGR
下载链接
链接失效反馈官方服务:
资源简介:
VGR-SFT(视觉定位推理-监督微调)是一个大规模的多模态推理数据集,与论文“VGR: Visual Grounded Reasoning”相关联。该数据集是首次尝试在多模态推理中显式建模视觉区域关注,包含混合视觉定位和语言推理的推理数据。它使模型能够在推理过程中自主关注任意视觉区域。
创建时间:
2025-06-12
搜集汇总
数据集介绍

构建方式
在视觉推理领域,VGR-SFT数据集的构建采用了创新的多阶段流程。研究团队首先利用Qwen2.5-VL-72B模型生成带有视觉区域标注的冷启动数据,随后通过严格的拒绝采样机制进行精炼,包括格式验证、正确性验证和视觉基础验证三个关键步骤。为提升数据质量,团队进一步训练了基于InternVL3-14B的标注模型,并整合Open-R1文本推理数据以增强泛化能力,最终通过商业模型重写训练数据完成数据扩展。这种分层递进的构建策略确保了数据在视觉定位和语言推理两个维度的精确对齐。
特点
作为首个显式建模视觉区域注意力的多模态推理数据集,VGR-SFT展现出独特的跨模态特性。其核心价值在于实现了视觉定位与语言推理的有机融合,每个样本包含图像、问题、推理链和答案四要素,并标注了与推理相关的视觉区域。区别于传统人工标注方式,该数据集通过模型自主生成视觉关注区域,有效避免了主观偏差。覆盖科学问答、图表理解、文档视觉问答等多样化任务类型,其选择性特征回放机制较基线方法减少了70%的视觉标记消耗,显著提升了计算效率。
使用方法
针对视觉基础推理任务,VGR-SFT数据集提供了灵活的应用方案。研究者需注意由于版权限制,原始图像需从LLaVA-NeXT官方数据集获取,数据中的'image'字段对应其相对路径。当前发布的预览版包含5万样本,分为简化版和完整版两个版本以适应不同训练需求。使用时应遵循CC-0许可协议,并注意LLaVA-Next项目的附加条款。该数据集特别适合训练模型在推理过程中自主关注任意视觉区域的能力,为多模态大模型的监督微调提供了高质量基准。
背景与挑战
背景概述
VGR-SFT(Visual Grounded Reasoning - Supervised Fine-Tuning)是由字节跳动团队于2025年发布的大规模多模态推理数据集,相关研究成果发表于论文《VGR: Visual Grounded Reasoning》。该数据集首次尝试在多模态推理中显式建模视觉区域注意力机制,通过融合视觉定位与语言演绎的混合推理数据,推动模型在推理过程中自主关注任意视觉区域的能力。其核心研究问题聚焦于如何实现视觉与语言的联合推理,同时克服传统方法中视觉特征利用率低的瓶颈。数据集覆盖科学问答、图表理解、文档视觉问答等多种任务类型,显著提升了多模态推理模型的性能表现,为计算机视觉与自然语言处理的交叉领域研究提供了重要基准。
当前挑战
VGR-SFT面临的挑战主要体现在两个维度:领域问题层面,多模态推理需解决视觉特征与语言逻辑的异构对齐问题,传统方法因区域注意力机制缺失导致70%以上的视觉特征冗余;数据构建层面,冷启动阶段依赖Qwen2.5-VL-72B模型生成初始标注,存在模型偏差风险,后续通过拒绝采样机制进行三重验证(格式、正确性、视觉定位),但跨数据集版权限制导致原始图像需从LLaVA-NeXT项目二次获取,增加了数据使用复杂度。此外,自主生成视觉区域标注虽避免人工偏见,却对标注模型的泛化能力提出极高要求,需结合InternVL3-14B与Open-R1数据进行迭代优化。
常用场景
经典使用场景
在视觉与语言融合的跨模态推理研究中,VGR数据集通过其独特的视觉区域标注机制,为模型提供了自主关注图像关键区域的能力。该数据集广泛应用于视觉问答、科学问题解答以及图表理解等任务,尤其在需要结合视觉线索进行多步推理的场景中表现突出。研究者可利用其混合视觉定位与语言推导的特性,探索模型在复杂跨模态任务中的推理能力边界。
解决学术问题
VGR数据集有效解决了多模态推理中视觉注意力机制建模的难题,通过自主生成的视觉区域标注避免了人工标注偏差。其创新性的选择性特征回放机制显著降低了70%的视觉标记消耗,为视觉-语言联合建模提供了高效解决方案。该数据集填补了现有研究中视觉基础推理数据缺乏的空白,推动了细粒度跨模态理解技术的发展。
衍生相关工作
基于VGR数据集的研究催生了多项创新工作,包括改进的视觉-语言预训练模型架构、高效的跨模态注意力机制,以及面向特定领域的视觉推理方法。Qwen2.5-VL-72B和InternVL3-14B等模型在该数据集上的应用验证了其推动多模态推理技术发展的潜力,相关成果已被拓展至更广泛的视觉基础任务中。
以上内容由遇见数据集搜集并总结生成



