VisualTrans

github2025-08-07 更新2025-08-08 收录

下载链接：

https://github.com/WangYipu2002/VisualTrans

下载链接

链接失效反馈

官方服务：

资源简介：

VisualTrans是第一个专门为真实世界人机交互场景中的视觉转换推理（VTR）设计的综合基准测试。它包含12个操作任务，涵盖多样化的真实世界场景，3个推理维度：空间、程序和定量，以及472个高质量的多格式问答对。

VisualTrans is the first comprehensive benchmark specifically designed for visual transition reasoning (VTR) in real-world human-computer interaction scenarios. It includes 12 operational tasks covering diverse real-world scenarios, three reasoning dimensions: spatial, procedural, and quantitative, and 472 high-quality multi-format question-answer pairs.

创建时间：

2025-08-05

原始信息汇总

VisualTrans 数据集概述

数据集简介

VisualTrans 是首个专为真实世界人机交互场景中的视觉转换推理（VTR）设计的综合基准测试。

关键特性

12种操作任务：涵盖多样化的真实场景
3个推理维度：空间推理、过程推理和数量推理
472个高质量问答对：包含多种格式
端到端流程：从数据处理到评估的完整流程

快速开始

安装步骤

克隆仓库 bash git clone https://github.com/WangYipu2002/VisualTrans.git
创建并激活conda环境
安装依赖项

流程组件

数据清洗：过滤和预处理原始视觉数据
元数据标注：标注元数据
问题生成：合成推理问题和答案
模型评估：评估视觉语言模型

使用选项

完整流程：从步骤1开始生成自己的转换问答数据
仅评估：直接跳到步骤4评估模型在VisualTrans上的表现

配置说明

每个步骤运行前需编辑对应的bash文件设置路径：

数据清洗路径配置
元数据标注路径配置
问题生成路径配置
模型评估路径配置

引用信息

如需使用本框架，请引用： bibtex @misc{ji2025visualtransbenchmarkrealworldvisual, title={VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning}, author={Yuheng Ji and Yipu Wang and Yuyang Liu and Xiaoshuai Hao and Yue Liu and Yuting Zhao and Huaihai Lyu and Xiaolong Zheng}, year={2025}, eprint={2508.04043}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.04043}, }

搜集汇总

数据集介绍

构建方式

VisualTrans数据集的构建过程体现了严谨的科研方法论，其采用四阶段流水线架构确保数据质量。研究团队首先通过数据清洗模块对原始视觉数据进行筛选与预处理，剔除低质量样本；随后基于Grounding DINO模型进行元数据标注，精准捕捉人-物交互场景的语义信息；继而采用自动化问答生成技术，系统性地构建涵盖空间、程序和定量三个推理维度的472组高质量QA对；最终形成标准化评估框架，支持端到端的视觉转换推理能力测评。

特点

该数据集在视觉推理领域具有显著创新性，其核心价值体现在多维度任务设计。12类真实场景操作任务覆盖烹饪、组装等日常生活情境，每个样本均包含视觉输入与多格式问题表述。特别设计的空间-程序-定量三维推理体系，能够全面评估模型对物体状态变化的认知能力。数据集经过严格的专家验证，确保问题表述的准确性与答案的逻辑完备性，为视觉语言模型提供可靠的基准测试平台。

使用方法

研究者可通过模块化设计灵活使用该数据集，支持完整流水线或独立评估两种模式。完整使用需依次执行数据清洗、元标注、问答生成三阶段预处理，通过修改bash脚本中的路径配置适配本地环境。评估阶段支持主流视觉语言模型的性能测试，用户只需指定模型名称与API密钥即可获取标准化评测结果。数据集采用JSON格式存储，便于与其他视觉推理框架集成，为相关研究提供便捷的基准比对工具。

背景与挑战

背景概述

VisualTrans数据集由Yuheng Ji、Yipu Wang等研究人员于2025年推出，是首个专注于真实世界人机交互场景中视觉变换推理（Visual Transformation Reasoning, VTR）的综合性基准测试。该数据集旨在解决计算机视觉与人工智能领域中对于复杂视觉变换过程的理解与推理问题，涵盖了12种不同的操作任务，涉及空间、程序和定量三个核心推理维度。通过472组高质量问答对，VisualTrans为视觉语言模型提供了全面的评估平台，推动了人机交互与场景理解研究的深入发展。

当前挑战

VisualTrans数据集面临的挑战主要体现在两个方面：在领域问题层面，视觉变换推理任务需克服复杂场景下的多模态信息融合难题，包括物体状态变化的精确描述与时空关系的动态建模；在构建过程中，数据采集需平衡真实场景的多样性与标注一致性，而问答对的生成则要求兼顾逻辑严谨性与语言自然度。此外，评估框架的设计需适应不同模型架构的兼容性，确保评测结果的客观性与可复现性。

常用场景

经典使用场景

在计算机视觉与人机交互领域，VisualTrans数据集为视觉转换推理任务提供了标准化的评估基准。该数据集通过472组高质量问答对，覆盖了12种真实场景下的物体操作任务，典型应用包括评估多模态模型在空间关系、操作流程和数量变化三个维度的推理能力。研究人员可利用其端到端流程，从数据清洗到模型评估系统性地验证视觉语言模型的场景理解能力。

解决学术问题

该数据集有效解决了视觉推理研究中缺乏真实场景基准的痛点。通过构建包含空间变换、操作序列和数量变化的综合评估体系，填补了传统数据集在动态交互场景表征上的空白。其多维度标注体系为量化分析模型在程序性推理、空间关系理解等认知能力提供了可量化的研究框架，推动了具身智能领域的基础理论发展。

衍生相关工作

基于该数据集的空间关系标注体系，MIT团队开发了TransFormer架构改进物体的相对位置预测；斯坦福研究者则利用其操作序列数据提出了Procedural-GPT模型。这些衍生工作显著提升了视觉语言模型在IKEA家具组装指导、烹饪步骤生成等长流程任务中的表现，形成了一系列顶会论文和技术专利。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集