VisualTrans

Name: VisualTrans
Creator: 中国科学院自动化研究所
Published: 2025-08-06 11:07:05
License: 暂无描述

arXiv2025-08-06 更新2025-08-08 收录

下载链接：

http://visualtrans.cs.com

下载链接

链接失效反馈

官方服务：

资源简介：

VisualTrans是一个针对现实世界中人与物体交互场景的视觉转换推理（VTR）基准。它包含12种语义丰富的操作任务，并通过系统构建的问题-答案对评估三个核心推理维度——空间、程序和定量。该基准具有472个高质量的问题-答案对，包括选择题、开放式计数和目标枚举等多种格式。VisualTrans基于第一人称操作视频构建，并通过自动元数据注释和结构化问题生成，最终由人工验证确保其高质量和可解释性。该数据集旨在帮助智能系统理解和预测动态场景，并指导行动，为高级智能系统奠定基础。

VisualTrans is a visual transformation reasoning (VTR) benchmark targeting real-world human-object interaction scenarios. It includes 12 semantically rich operational tasks, and evaluates three core reasoning dimensions—spatial, procedural, and quantitative—using systematically constructed question-answer pairs. This benchmark contains 472 high-quality question-answer pairs in diverse formats such as multiple-choice questions, open-ended counting tasks, and object enumeration. VisualTrans is built upon first-person action videos, with automatic metadata annotation and structured question generation applied, followed by manual verification to ensure its high quality and interpretability. This dataset aims to assist intelligent systems in understanding and predicting dynamic scenes, guiding actionable behaviors, and laying a foundation for advanced intelligent systems.

提供机构：

中国科学院自动化研究所

创建时间：

2025-08-06

搜集汇总

数据集介绍

构建方式

VisualTrans数据集的构建基于EgoDex中的第一人称操作视频，通过精心挑选12种具有多对象交互和显著空间重组的真实世界任务场景。构建流程包括任务选择、图像清洗与过滤、自动元数据标注以及问题-答案生成与验证。具体而言，首先从视频中提取初始帧和完成帧作为图像对，然后利用o3模型自动评估图像质量并过滤低质量样本，接着使用Grounding DINO进行对象检测，并借助Gemini 2.5 Pro生成结构化场景元数据，最后通过程序化填充的QA模板生成472个高质量的问答对，并经过人工验证确保数据质量。

使用方法

使用VisualTrans数据集时，首先需加载图像对和对应的元数据。对于每对图像，模型需要根据转换前后的视觉差异回答特定问题。评估分为三类任务：空间转换任务要求识别物体位置和结构变化；过程转换任务需要推断中间状态或操作序列；数量转换任务则涉及检测物体数量的变化。回答格式包括选择选项字母（多项选择）、输出数字（计数）或列举对象名称（枚举）。评估时仅最终答案会被计分，支持零样本和少样本评估协议。

背景与挑战

背景概述

VisualTrans是由中国科学院自动化研究所等机构的研究团队于2025年提出的一个面向真实世界视觉变换推理的基准数据集。该数据集基于第一人称操作视频构建，包含12类日常操作任务，通过472个高质量的问答对系统评估模型在空间变换、程序推理和量化感知三个核心维度的能力。作为首个从真实人类交互场景构建的VTR基准，VisualTrans显著提升了任务真实性和变换复杂性，为动态场景理解和因果推理研究提供了重要工具。

当前挑战

VisualTrans面临的挑战主要体现在两个方面：在领域问题层面，现有视觉语言模型在动态多步推理场景中表现欠佳，特别是在中间状态识别和变换序列规划等需要时序建模和因果推理的任务上；在构建过程层面，数据采集需克服真实场景中的遮挡模糊问题，且需要设计复杂的自动化标注流程来处理多对象、多步骤的变换关系。此外，确保问题答案对的多样性和质量也面临人工验证的挑战。

常用场景

经典使用场景

VisualTrans数据集在视觉转换推理（VTR）领域中被广泛用于评估模型在动态场景理解、因果推理和多步骤操作规划方面的能力。该数据集通过12种真实世界的操作任务，系统性地涵盖了空间、过程和定量三个核心推理维度，为研究者提供了一个全面的基准测试平台。

解决学术问题

VisualTrans解决了当前VTR基准在现实性、任务复杂性和多维度推理覆盖方面的局限性。通过基于真实人类操作视频构建的数据集，它填补了模拟与现实之间的鸿沟，支持对多对象、多步骤复杂转换过程的建模，并为模型在空间理解、过程推理和数量感知等核心能力上的系统性评估提供了工具。

实际应用

该数据集的实际应用场景包括机器人操作规划、增强现实交互系统以及智能家居助手开发。例如，在机器人抓取任务中，模型需要根据VisualTrans中的空间转换样本预测最优操作序列；在虚拟装配指导系统中，可利用其中间状态识别任务来生成分步骤的视觉指引。

数据集最近研究