V-Interaction-400K, V-Perception-40K
收藏arXiv2025-11-06 更新2025-11-13 收录
下载链接:
https://github.com/We-Math/V-Thinker
下载链接
链接失效反馈官方服务:
资源简介:
V-Thinker是一个通用的多模态推理助手,它通过端到端的强化学习实现了交互式、以视觉为中心的思考。它包含两个关键组件:数据进化飞轮和视觉渐进式训练课程。数据进化飞轮在多样性、质量和难度三个维度上自动合成、进化和验证交互式推理数据集。视觉渐进式训练课程则通过两阶段的强化学习框架,首先通过点级监督对感知进行对齐,然后通过交互式推理进行对齐。为了全面评估视觉交互式推理能力,论文中还介绍了VTBench,这是一个针对视觉交互式推理任务的专家验证基准。
V-Thinker is a general-purpose multimodal reasoning assistant that enables interactive, vision-centric reasoning via end-to-end reinforcement learning. It comprises two core components: the Data Evolution Flywheel and the Visual Progressive Training Curriculum. The Data Evolution Flywheel automatically synthesizes, evolves, and validates interactive reasoning datasets across three dimensions: diversity, quality, and difficulty. The Visual Progressive Training Curriculum adopts a two-stage reinforcement learning framework, where it first aligns perceptual modules via point-level supervision, and then performs alignment through interactive reasoning. To comprehensively evaluate visual interactive reasoning capabilities, the paper additionally introduces VTBench, an expert-validated benchmark tailored for visual interactive reasoning tasks.
提供机构:
北京邮电大学,腾讯微信视觉团队
创建时间:
2025-11-06
搜集汇总
数据集介绍

构建方式
在视觉中心推理领域,V-Interaction-400K和V-Perception-40K数据集的构建采用了创新的数据演化飞轮机制。该机制通过知识驱动演化、协调校准和渐进扩展三个核心阶段,自动合成、验证和优化交互式推理数据。知识概念与视觉工具系统作为基础锚点,在生成器中协同生成多样化的问题-答案对及对应的代码执行轨迹,随后通过严格的检查与修复模块确保文本、图像与视觉状态的一致性,最终通过并行与序列扩展策略提升推理链的复杂度,形成高质量、多层次的视觉交互数据集。
特点
该数据集在视觉交互推理领域展现出显著的多维特性。其覆盖了数学、逻辑、几何等多样化知识领域,通过代码驱动的视觉工具实现了对图像元素的精细操作与动态编辑。数据集不仅具备严格的质控机制,确保问题与视觉状态的语义对齐,还通过渐进难度设计模拟了从基础感知到复杂推理的完整认知阶梯。这种结构化的数据组织为模型提供了从空间定位到自主交互的全面训练基础,推动了视觉与语言模态的深度融合。
使用方法
在模型训练过程中,该数据集通过视觉渐进课程框架指导多模态推理能力的系统化构建。首先利用V-Perception-40K进行感知对齐训练,通过点级监督增强模型对视觉锚点的定位与引用能力;随后基于V-Interaction-400K开展交互式推理对齐,结合监督微调与强化学习在沙盒环境中迭代优化代码生成与视觉交互策略。这种分阶段的方法使模型能够逐步掌握从静态感知到动态推理的完整能力链,为复杂视觉问题的端到端解决提供可靠支撑。
背景与挑战
背景概述
V-Interaction-400K与V-Perception-40K数据集由北京邮电大学与腾讯微信视觉团队于2025年联合发布,旨在推动多模态大模型在视觉交互推理领域的深度发展。该数据集核心聚焦于解决图像交互式思维范式中的关键问题,即如何将视觉感知与长程推理能力深度融合,从而超越传统图像辅助推理的局限。通过构建大规模、高质量的交互式视觉推理数据,该数据集为多模态模型提供了从感知对齐到交互推理的系统训练基础,显著提升了模型在几何证明、逻辑分析等复杂任务中的表现,对推动视觉中心推理研究具有里程碑意义。
当前挑战
在视觉交互推理领域,模型需克服精细空间定位与逻辑关系建模的双重挑战,例如在几何问题中准确绘制辅助线或动态标注图像元素。构建过程中,数据合成面临多样性、质量与难度控制的平衡难题:知识驱动生成需确保视觉工具与概念系统的协同演化,而协调校准机制必须严格验证文本、代码与视觉状态的一致性。此外,渐进式扩展策略要求推理链在并行与序列结构中保持逻辑连贯,避免噪声引入导致的空间关系失真。
常用场景
经典使用场景
在视觉中心推理领域,V-Interaction-400K与V-Perception-40K数据集被广泛用于训练和评估大型多模态模型的交互式图像推理能力。这些数据集通过模拟人类在解决几何证明、逻辑分析等复杂问题时添加辅助线或标注关键区域的行为,构建了从感知对齐到交互推理的完整训练流程。其经典应用体现在模型能够自主生成可执行代码来操作图像元素,形成视觉思维链,从而在数学推理、物理问题求解等需要精细空间感知的任务中实现突破性性能。
实际应用
在实际应用层面,该数据集支撑的V-Thinker系统已展现出在智能教育、工业设计和科学计算等领域的潜力。在几何教学场景中,模型能动态绘制辅助线演示证明过程;在工程图纸分析时,可自动标注尺寸关系并验证设计合理性;对于医学影像分析,则能通过交互式标注辅助病灶定位。这些应用证明了视觉交互推理在增强模型可解释性、降低专业门槛方面的价值,为构建具备人类直觉式问题解决能力的AI系统开辟了新路径。
衍生相关工作
基于该数据集衍生的经典工作包括三大方向:其一是DeepSketcher等研究探索的隐式视觉推理方法,通过抽象视觉线索而非像素级操作进行推理;其二是Thyme框架推动的沙盒环境强化学习范式,将代码执行与视觉状态更新融入训练循环;其三是以VTBench为代表的专业评估体系,建立了涵盖感知、指令交互与自主推理的多层次评测标准。这些工作共同构成了视觉交互推理的研究脉络,持续拓展着多模态模型在动态视觉环境中的认知边界。
以上内容由遇见数据集搜集并总结生成



