V-Interaction-400K, V-Perception-40K, VTBench

github2025-11-08 更新2025-11-09 收录

下载链接：

https://github.com/We-Math/V-Thinker

下载链接

链接失效反馈

官方服务：

资源简介：

V-Interaction-400K：大规模、高质量的视觉交互数据集，可扩展至图像到代码任务；V-Perception-40K：用于点级感知对齐的高质量数据集；VTBench：跨三种任务类型（感知、指令引导交互和交互推理）的标准化交互式视觉推理基准

V-Interaction-400K: A large-scale, high-quality visual interaction dataset that can be extended to image-to-code tasks; V-Perception-40K: A high-quality dataset for point-level perception alignment; VTBench: A standardized interactive visual reasoning benchmark spanning three task types: perception, instruction-guided interaction, and interactive reasoning.

创建时间：

2025-11-05

原始信息汇总

V-Thinker 数据集概述

数据集基本信息

项目名称：V-Thinker
核心功能：支持图像交互思维的多模态推理助手
开发状态：持续开发中
许可证：MIT License
编程语言：Python 3.10+

数据集组成

主要数据集

V-Interaction-400K：大规模交互式推理数据集（预览版包含252K样本）
V-Perception-40K：点级感知对齐数据集（预览版包含37K样本）
VTBench：交互式视觉推理标准化基准（包含1,500个专家验证的QA对）

数据集特点

数据合成范式：将模型从"求解器"转变为"创造者"
数据进化飞轮：在多样性、质量和难度三个维度实现自动化合成
多样性：基于知识驱动合成，覆盖25个领域和24,767个节点
质量保证：采用检查器-修复器协调机制确保跨模态一致性
难度扩展：通过并行和顺序扩展策略支持可扩展的推理复杂度

训练框架

视觉渐进式训练课程

阶段1：感知对齐 - 细粒度视觉定位与点级监督
阶段2：交互推理 - 冷启动SFT + 沙盒代码执行器中的RL

基准评估

VTBench基准任务类型

感知任务：通过坐标预测和渲染实现视觉定位
指令引导交互：根据指令进行视觉编辑和操作
交互推理：多模态推理和答案生成

性能表现

在VTBench基准测试中，V-Thinker-7B模型表现：

感知任务：18.0分（相对提升+8.4）
指令引导交互：34.6分（相对提升+25.8）
交互推理：41.8分（相对提升+9.6）

数据访问

所有数据集均通过HuggingFace平台提供：

https://huggingface.co/datasets/We-Math/V-Interaction-400K
https://huggingface.co/datasets/We-Math/V-Perception-40K
https://huggingface.co/datasets/We-Math/VTBench

开发计划

[x] 发布代码库和数据集（预览版252K+37K）
[x] 发布V-Thinker-7B模型
[x] 发布VTBench基准
[ ] 发布知识系统和视觉工具系统
[ ] 发布完整版数据集（计划12月前）
[ ] 发布改进的检查点

搜集汇总

数据集介绍

构建方式

在视觉交互推理领域，V-Interaction-400K数据集的构建采用了创新的数据合成范式，将模型从传统的问题解决者转变为数据创造者。通过代码级渲染和推理生成技术，模型能够直接产出高质量的多模态推理数据。知识驱动的表示方法引导模型生成具有空间对齐特性的多样化问题，确保了数据在文本、视觉和图像操作维度上的跨模态一致性。这种构建方式突破了传统数据合成的局限，实现了从数据扩展向真正数据创造的演进。

使用方法

数据集的使用遵循渐进式训练课程设计，分为两个关键阶段：感知对齐阶段通过点级监督实现细粒度视觉定位，交互推理阶段则结合冷启动监督微调与强化学习。研究者在沙盒化代码执行环境中进行模型训练，确保交互过程的安全可控。评估环节采用VTBench标准化基准，该基准包含1,500个专家验证的问答对，涵盖感知、指令引导交互和交互推理三个层次化维度，为模型性能提供了全面的评估框架。

背景与挑战

背景概述

V-Thinker系列数据集由北京邮电大学与腾讯微信团队于2025年联合发布，标志着多模态推理领域向交互式视觉思考范式的重大转型。该系列包含V-Interaction-400K交互推理数据集、V-Perception-40K感知对齐数据集及VTBench评估基准，其核心突破在于将传统视觉语言模型从被动解析者转变为能主动编辑、标注和转换图像的创造性智能体。通过知识驱动的数据合成框架与强化学习机制，该研究解决了复杂视觉场景中动态推理的瓶颈，为数学推理、几何分析等24个专业领域提供了可扩展的评估体系。

当前挑战

在解决交互式视觉推理任务时，模型需克服三大核心挑战：跨模态空间对齐的精确性要求模型在坐标预测与渲染过程中保持像素级一致性；指令引导的交互操作需要理解自然语言指令与视觉元素的动态映射关系；多步推理的复杂性要求模型在沙盒环境中执行代码级操作并保持逻辑连贯性。数据构建过程中面临知识系统扩展的维度爆炸问题，需通过协调检查-修复机制确保文本、视觉与动作三维度的高保真度，同时渐进式难度扩展策略需平衡数据多样性与推理复杂度之间的张力。

常用场景

经典使用场景

在视觉推理研究领域，V-Interaction-400K与VTBench数据集被广泛应用于多模态交互式推理任务的模型训练与评估。这些数据集通过包含图像编辑、坐标标注和视觉转换等交互操作，为模型提供了从被动感知到主动干预的演进路径，特别适用于需要复杂视觉推理的数学问题解答和逻辑分析场景。

解决学术问题

该系列数据集通过构建层次化的任务体系，有效解决了传统视觉语言模型在细粒度感知对齐与交互推理能力上的局限性。其引入的坐标级监督机制和代码执行环境，显著提升了模型在空间关系理解与多步推理任务中的表现，为突破视觉推理任务的复杂度瓶颈提供了系统化解决方案。

实际应用

在实际应用层面，这些数据集支撑的模型能力可广泛应用于智能教育辅导系统，通过可视化交互辅助数学几何问题的分步解析；同时在工业质检领域，其细粒度视觉定位特性可用于精密元件的缺陷检测与标注，显著提升自动化检测的精度与效率。

数据集最近研究