Visual-Task Instruction Following Dataset (VTInstruct)

Name: Visual-Task Instruction Following Dataset (VTInstruct)
Creator: 上海交通大学, 浙江大学, 香港理工大学, 宁波工业技术研究院, 中国东部理工学院
Published: 2025-03-10 22:59:14
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07413v1

下载链接

链接失效反馈

官方服务：

资源简介：

VTInstruct是一个大规模的多任务视觉数据集，由上海交通大学等机构创建。该数据集包含超过1亿个高质量的多模态对话样本，主要来源于公开可用的数据集，如LAION-5B、SA-1B、COCO、GRIT等。每个样本都增强了精心设计的提示模板，支持多模态输入（如图像、文本、点、框、 Scribbles和遮罩）以促进指令跟随，并为不同的下游任务生成多样化的输出（如文本、框、关键点、深度和遮罩）。

VTInstruct is a large-scale multi-task visual dataset developed by institutions including Shanghai Jiao Tong University. This dataset comprises over 100 million high-quality multimodal dialogue samples, primarily sourced from publicly available datasets such as LAION-5B, SA-1B, COCO, GRIT, and others. Each sample is equipped with meticulously designed prompt templates, supporting multimodal inputs including images, text, points, bounding boxes, scribbles, and masks to facilitate instruction following, and generating diverse outputs for different downstream tasks, such as text, bounding boxes, keypoints, depth maps, and masks.

提供机构：

上海交通大学, 浙江大学, 香港理工大学, 宁波工业技术研究院, 中国东部理工学院

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

VTInstruct数据集的构建旨在支持REF-VLM框架中的各种视觉解码任务。该数据集包含超过1亿个多模态对话样本，涵盖25种任务类型。数据集的构建过程中，使用了来自公开数据集如LAION-5B、SA-1B、COCO、GRIT等的图像和文本数据。为了促进指令跟随，数据集中的每个样本都精心设计了多模态输入（例如图像、文本、点、框、涂鸦和掩码）和多样化输出（例如文本、框、关键点、深度和掩码）。

特点

VTInstruct数据集的特点在于其规模之大和任务的多样性。它包含了大量的多模态对话样本，支持包括视觉理解、指代表达式、交互式定位、开放词汇识别、场景对话生成、关键点检测和深度估计在内的多种任务。数据集的设计考虑到了不同视觉提示和视觉单元的组合，使得REF-VLM框架能够适应各种复杂的视觉解码场景。此外，VTInstruct数据集的构建还考虑到了文本输入和输出的复杂性，以及视觉单元的密度，从而确保了数据集的全面性和实用性。

使用方法

使用VTInstruct数据集时，研究人员和开发者可以将其作为REF-VLM框架的训练数据，以提升模型在视觉解码任务中的性能。数据集中的多模态对话样本可以用于训练模型理解和生成各种视觉单元，如框、关键点、深度和掩码。此外，数据集的多样性和复杂性还可以用于评估和验证REF-VLM框架在不同视觉解码任务中的表现。VTInstruct数据集的详细使用方法和指南可以在相关论文和代码库中找到。

背景与挑战

背景概述

Visual-Task Instruction Following Dataset (VTInstruct) 是一个大规模的多任务数据集，由上海交通大学、浙江大学、香港理工大学、宁波数字孪生与东方理工数字孪生研究院的联合研究团队于 2025 年构建。该数据集旨在支持各种视觉解码任务，包括视觉理解、指代表达式、交互式定位、开放词汇识别和地面对话生成等。VTInstruct 包含超过 1 亿个多模态对话样本，涵盖了 25 种任务类型。数据集的特点是包含各种视觉提示，如点、框、涂鸦和掩码，以及生成由文本和视觉单元（如框、关键点和掩码）组成的输出。VTInstruct 的构建对于推动视觉-语言模型在现实世界应用中的发展具有重要意义。

当前挑战

VTInstruct 数据集在构建过程中面临的主要挑战包括：1) 如何有效地将各种视觉任务整合到一个统一的数据集中，确保数据的多样性和复杂性；2) 如何设计有效的数据增强策略，以提高模型的鲁棒性和泛化能力；3) 如何在保证数据质量的前提下，实现数据集的快速构建和更新。此外，VTInstruct 数据集在解决视觉解码任务方面也面临一些挑战，如如何有效地处理多粒度场景下的视觉概念解码，以及如何提高模型在多任务学习中的性能和适应性。

常用场景

经典使用场景

VTInstruct数据集是专门设计来支持广泛视觉任务的，包括视觉理解、指代表达式、交互式定位、开放词汇识别、基于位置的对话生成、关键点检测和深度估计等。该数据集包含超过1亿个多模态对话样本，涵盖了25种不同的任务类型。这些样本融合了各种视觉提示，如点、框、涂鸦和掩码，以及由文本和视觉单元（如框、关键点和掩码）组成的输出。VTInstruct数据集的多样性和规模使其成为视觉语言模型训练的理想选择，尤其是在需要多任务学习和多粒度场景的情况下。

衍生相关工作

VTInstruct数据集衍生了许多相关的研究工作。例如，REF-VLM框架利用VTInstruct数据集进行训练，以实现统一的多任务视觉解码。此外，VTInstruct数据集还被用于评估和比较各种视觉语言模型的性能，推动了该领域的研究进展。

数据集最近研究