Dataset of Explanatory CV Tasks (DECVT)

Name: Dataset of Explanatory CV Tasks (DECVT)
Creator: 南京理工大学, 东南大学, 百度
Published: 2024-12-25 00:08:25
License: 暂无描述

arXiv2024-12-25 更新2024-12-26 收录

下载链接：

https://github.com/SEU-VIPGroup/Understanding_Vision_Tasks

下载链接

链接失效反馈

官方服务：

资源简介：

Dataset of Explanatory CV Tasks (DECVT) 是由南京理工大学、东南大学和百度联合构建的大规模数据集，包含1200万条“图像输入→解释性指令→输出”三元组数据。该数据集通过详细的解释性指令，直观地描述了计算机视觉任务的目标，涵盖了从图像到输出的多种变换过程。数据集分为“术语化视觉任务”和“解释性视觉任务”两部分，前者包括图像恢复、去雨、去雾等低层次视觉任务，后者则通过自然语言指令描述复杂的图像编辑任务。DECVT旨在通过训练自回归视觉语言模型（AR-based VLM），提升模型在指令级和任务级的零样本泛化能力，推动计算机视觉领域的统一和多样化发展。

Dataset of Explanatory CV Tasks (DECVT) is a large-scale dataset jointly constructed by Nanjing University of Science and Technology, Southeast University, and Baidu. It contains 12 million triples of "Image Input → Explanatory Instruction → Output". This dataset intuitively describes the objectives of computer vision tasks via detailed explanatory instructions, covering various transformation processes from input images to final outputs. The dataset is split into two categories: "Terminological Visual Tasks" and "Explanatory Visual Tasks". The former covers low-level visual tasks such as image restoration, deraining, dehazing, etc., while the latter describes complex image editing tasks through natural language instructions. DECVT aims to enhance the zero-shot generalization ability of autoregressive vision-language models (AR-based VLMs) at both the instruction-level and task-level, thereby promoting the unified and diversified development of the computer vision field.

提供机构：

南京理工大学, 东南大学, 百度

创建时间：

2024-12-25

搜集汇总

数据集介绍

构建方式

DECVT数据集的构建基于解释性指令，通过详细的文本描述来定义计算机视觉任务的目标。数据集包含1200万条“图像输入→解释性指令→输出”三元组，涵盖了多种视觉任务。数据集的构建过程包括从开源数据集中选择图像，并通过手动或GPT-4o生成解释性指令，确保指令能够清晰地描述任务目标。此外，数据集还包含双向的图像转换任务，即从原始图像到输出图像，以及从输出图像回到原始图像，以增强任务的多样性和表达能力。

特点

DECVT数据集的特点在于其通过解释性指令来定义视觉任务，突破了传统术语性指令的限制。数据集不仅涵盖了常见的视觉任务，如语义分割、目标检测等，还通过解释性指令引入了更多复杂的任务目标。数据集中的指令详细描述了图像之间的转换过程，使得模型能够更好地理解任务的目标，从而在未见过的任务上展现出零样本泛化能力。此外，数据集的多样性体现在其包含了多种图像编辑任务和视觉相关的图像对，进一步扩展了任务的范围和复杂性。

使用方法

DECVT数据集的使用方法主要包括通过解释性指令来训练自回归视觉语言模型（AR-based VLM）。模型在训练过程中学习如何根据图像和解释性指令生成相应的输出图像。在推理阶段，模型可以根据输入的图像和解释性指令生成符合任务目标的输出图像。此外，通过在训练数据集中省略某些任务，模型能够在未见过的任务上展现出任务级别的零样本泛化能力。数据集的使用不仅限于图像生成任务，还可以应用于图像编辑、深度估计、语义分割等多种视觉任务，展示了其在计算机视觉领域的广泛应用潜力。

背景与挑战

背景概述

DECVT（Dataset of Explanatory CV Tasks）是由南京理工大学、东南大学和百度等机构的研究团队于2024年提出的一个大规模计算机视觉任务数据集。该数据集的核心理念是通过引入“解释性指令”（Explanatory Instructions）来重新定义计算机视觉任务的目标，从而推动模型在零样本任务泛化方面的能力。DECVT包含了1200万条“输入图像→解释性指令→输出图像”的三元组数据，旨在通过详细的自然语言描述来指导模型理解视觉任务的本质。该数据集的提出标志着计算机视觉领域在任务泛化方面迈出了重要一步，尤其是在零样本任务泛化方面，填补了现有模型在任务理解和表达灵活性上的不足。

当前挑战

DECVT面临的挑战主要体现在两个方面。首先，在任务定义方面，传统的计算机视觉任务通常依赖于离散的术语化定义（如“图像分割”），这限制了模型对任务目标的理解，导致其在面对新任务时难以泛化。DECVT通过解释性指令来解决这一问题，但如何确保这些指令能够准确传达任务目标，并避免歧义，仍然是一个挑战。其次，在数据集构建过程中，生成高质量的解释性指令需要大量的手动标注和自动化生成，而现有的语言模型（如GPT-4o）在生成复杂指令时仍存在不完整或偏差的问题，这可能导致数据集中的噪声，进而影响模型的训练效果和泛化能力。此外，如何在不同视觉任务之间保持指令的一致性和多样性，也是构建过程中需要克服的难题。

常用场景

经典使用场景

DECVT数据集在计算机视觉领域中被广泛用于训练和评估视觉语言模型（VLM），特别是在零样本任务泛化方面。通过提供详细的解释性指令，该数据集帮助模型理解复杂的视觉任务目标，从而在未见过的任务上展现出泛化能力。经典的使用场景包括图像生成、图像编辑、语义分割、深度估计等任务。

衍生相关工作

DECVT数据集的推出催生了一系列相关研究，特别是在视觉语言模型和零样本任务泛化领域。基于DECVT的研究工作包括改进的视觉语言模型架构、更复杂的解释性指令生成方法，以及针对特定视觉任务的优化模型。这些工作进一步推动了计算机视觉领域的发展，使得模型能够在更多样化的任务上展现出泛化能力。

数据集最近研究