V3Det

Name: V3Det
Creator: 上海人工智能实验室
Published: 2023-10-05 20:18:14
License: 暂无描述

arXiv2023-10-05 更新2024-06-21 收录

下载链接：

https://v3det.openxlab.org.cn/

下载链接

链接失效反馈

官方服务：

资源简介：

V3Det是一个包含13,204个类别的大规模视觉检测数据集，由上海人工智能实验室创建。该数据集包含243k张精确标注的图像，每个类别都有由专家和强大的聊天机器人编写的专业描述。V3Det通过其庞大的词汇量和层次类别组织，为广泛和开放词汇的对象检测提供了丰富的探索空间，旨在推动更通用的视觉感知系统的发展。

V3Det is a large-scale visual detection dataset with 13,204 categories, created by the Shanghai AI Laboratory. This dataset contains 243,000 precisely annotated images, and each category is equipped with professional descriptions written by experts and powerful chatbots. Leveraging its extensive vocabulary and hierarchical category organization, V3Det provides abundant exploration opportunities for extensive and open-vocabulary object detection, aiming to advance the development of more general visual perception systems.

提供机构：

上海人工智能实验室

创建时间：

2023-04-08

搜集汇总

数据集介绍

构建方式

V3Det数据集的构建方式主要基于Bamboo分类数据集，通过人工筛选和图像选择流程，从Bamboo数据集中选取了11,922个适合目标检测的视觉概念，并从网络数据中收集了1,282个目标检测类别，最终形成了包含13,204个类别的数据集。图像选择过程中，对于来自Bamboo分类数据集的类别，直接使用对应的图像；对于来自网络数据的类别，则从Flickr网站爬取120张图像，并手动去除不匹配的图像。为了确保图像的复杂性，使用了一个区域提议网络来提取区域提议，并去除了提议数量超过4,000的图像，保留了每类别中提议数量最多的20张图像。

特点

V3Det数据集具有以下特点：1）庞大的词汇量：包含13,204个类别的物体边界框，远超过现有的目标检测数据集；2）层次化的类别组织：使用层次化的类别树来组织庞大的词汇量，标注类别之间的包含关系；3）丰富的注释：在243k张图像中精确标注了物体边界框，并为每个类别提供了由人类专家和强大的聊天机器人编写的专业描述。

使用方法

V3Det数据集的使用方法包括：1）下载数据集：可以从V3Det的官方网站下载图像URL列表、注释、类别关系树和其他相关工具；2）数据预处理：根据数据集的特点，选择合适的数据采样器、优化器和分类器设计；3）模型训练：在V3Det数据集上训练目标检测模型，可以使用各种检测框架，如Faster R-CNN、Cascade R-CNN、CenterNet2等；4）性能评估：使用V3Det数据集的验证集和测试集来评估模型的性能，包括平均精度等指标；5）开放词汇检测：使用V3Det数据集进行开放词汇目标检测，测试现有开放词汇目标检测方法的效果。

背景与挑战

背景概述

在计算机视觉领域，物体检测技术是推动自动驾驶、机器人、增强现实等应用发展的基石。随着对任意物体检测需求的日益增长，现有数据集的词汇量限制逐渐凸显。为了促进更通用的视觉物体检测技术的发展，研究人员提出了V3Det数据集。该数据集由上海人工智能实验室、香港中文大学和感知与交互智能中心的研究人员共同创建，包含13204个类别的物体边界框，显著超越了现有的大型词汇物体检测数据集，如LVIS。V3Det数据集的组织结构采用层次化类别树，标注了类别之间的包含关系，促进了开放词汇物体检测中类别关系的探索。此外，V3Det数据集包含了243k张图像中精确标注的物体，以及由人类专家和专业聊天机器人编写的每个类别的详细描述，为开放词汇物体检测提供了丰富的探索空间。

当前挑战

尽管V3Det数据集在物体检测领域取得了突破性的进展，但仍面临一些挑战。首先，在解决领域问题上，V3Det数据集的规模和多样性使得训练和评估通用物体检测器成为一个挑战。其次，在构建过程中，数据集的采集、标注和验证需要大量的人力物力投入，确保数据质量的同时，也增加了数据集构建的复杂性。此外，由于V3Det数据集包含的类别数量庞大，如何有效地进行数据采样、优化器和分类器设计，以提高模型在V3Det数据集上的性能，也是当前研究的一个重要挑战。最后，在开放词汇物体检测方面，现有的方法在V3Det数据集上表现不佳，这表明开放词汇物体检测技术仍有很大的提升空间。

常用场景

经典使用场景

V3Det数据集广泛应用于视觉目标检测领域，特别是在训练和评估具有广泛词汇量的视觉检测系统。其庞大的词汇库和精确标注的边界框使其成为研究开放词汇目标检测的理想平台。通过提供13,204个类别的真实世界图像，V3Det有助于推动视觉检测技术的发展，使其能够检测到现实世界中无数种类的对象。此外，V3Det还包含由人类专家和专业聊天机器人编写的类别描述，为研究人员提供了丰富的探索空间。

衍生相关工作

V3Det数据集的发布推动了开放词汇目标检测领域的研究。基于V3Det数据集，研究人员开发了一系列开放词汇目标检测方法，如OV-RCNN、ViLD、GLIP、MDETR、RegionCLIP、Detic等。这些方法在V3Det数据集上取得了显著的性能提升，为开放词汇目标检测的发展提供了新的思路和方向。此外，V3Det数据集还被用于预训练视觉语言模型，如CLIP、ViLT等，这些模型在V3Det数据集上进行预训练后，可以更好地应用于开放词汇目标检测任务。

数据集最近研究