vision-datasets

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/microsoft/vision-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库定义了统一的数据集合约，支持多种数据类型，如图像分类、对象检测、图像文本匹配等，并提供了数据集操作和访问的API。

This repository defines a unified data collection protocol that supports various data types, such as image classification, object detection, image-text matching, etc., and provides APIs for dataset operations and access.

创建时间：

2021-08-24

原始信息汇总

数据集概述

数据类型支持

本数据集支持以下基本数据类型：

image_classification_multiclass
image_classification_multilabel
image_object_detection
image_text_matching
image_matting
image_regression
image_caption
text_2_image_retrieval
visual_question_answering
visual_object_grounding

此外，还支持multitask类型，该类型允许一个数据集包含多种不同任务的标注。

数据集结构

数据集通过以下组件进行组织和访问：

DatasetManifest: 包含数据集的标签映射、图像信息（宽度、高度、图像路径）和标注信息。
ImageDataManifest: 封装单个图像的特定信息，如图像ID、路径、标签及宽度和高度。
ImageLabelManifest: 封装单个图像级别的标注信息。
CategoryManifest: 封装类别信息，包括名称和可能的父类别。
VisionDataset: 消费DatasetManifest信息，提供数据集的迭代访问。

数据集格式

支持的数据集格式包括：

COCO: 用于对象检测、图像标注、图像文本匹配和多任务数据集。
IRIS: 一种遗留格式，支持多类别/标签分类、对象检测和多任务数据集。

数据集操作

提供多种数据集操作，如按类别采样、小样本子数据集采样、按比例采样、训练-测试分割、数据集合并等。

数据集管理和访问

使用DatasetHub类可以方便地管理和访问多个数据集。该类支持从Azure Blob容器或本地磁盘加载数据。

数据集创建与使用

创建`DatasetManifest`

支持通过DatasetManifest.create_dataset_manifest方法创建数据集清单，支持COCO和IRIS格式。

使用`VisionDataset`

创建DatasetManifest后，可通过VisionDataset类访问数据集中的图像数据，用于训练、可视化等。

示例代码

python dataset = VisionDataset(dataset_info, dataset_manifest, coordinates=relative)

数据集操作示例

python from vision_datasets.common import DatasetTypes, SplitFactory, SplitConfig

data_manifest = .... splitter = SplitFactory.create(DatasetTypes.IMAGE_CLASSIFICATION_MULTICLASS, SplitConfig(ratio=0.3)) manifest_1, manifest_2 = splitter.run(data_manifest)

使用PyTorch进行训练

通过将VisionDataset传递给vision_datasets.common.dataset.TorchDataset，结合transform，即可使用PyTorch DataLoader进行训练。

搜集汇总

数据集介绍

构建方式

vision-datasets数据集的构建采用了统一的合约机制，通过`DatasetManifest`、`ImageDataManifest`等类定义了数据集的标准接口，支持多种数据类型的标注，包括单图像标注和多图像标注。数据集可以通过`COCO`和`IRIS`两种格式进行初始化，并通过`DatasetManifest.create_dataset_manifest`方法生成数据集清单。此外，数据集还支持从Azure Blob存储或本地磁盘加载数据，并通过`DatasetHub`类进行集中管理和访问。

特点

vision-datasets数据集涵盖了多种视觉任务，包括图像分类、目标检测、图像文本匹配、图像分割、图像回归、图像描述、文本到图像检索、视觉问答和视觉对象定位等。数据集支持多任务标注，允许同一组图像在不同任务下具有不同的标注。此外，数据集还提供了丰富的操作功能，如按类别采样、按比例采样、训练测试集划分、数据集合并等，极大地方便了数据集的灵活使用。

使用方法

使用vision-datasets数据集时，首先通过`DatasetManifest`或`KeyValuePairDatasetManifest`类加载数据集清单，然后通过`VisionDataset`类访问数据。数据集支持多种格式的数据加载，包括本地路径、非压缩的zip文件路径以及URL。用户可以通过`DatasetHub`类集中管理多个数据集，并通过简单的API调用获取所需的数据集。此外，数据集还提供了与PyTorch的集成，用户可以通过`TorchDataset`类将数据集直接用于深度学习模型的训练。

背景与挑战

背景概述

vision-datasets数据集由微软研究院于近年来推出，旨在为计算机视觉领域的研究者提供一个统一的、多任务的数据集管理框架。该数据集支持多种视觉任务，包括图像分类、目标检测、图像文本匹配、图像分割等，涵盖了从单标签分类到多标签分类、从单图像注释到多图像注释的广泛需求。通过`DatasetManifest`和`ImageDataManifest`等核心数据结构，vision-datasets为数据集的加载、操作和访问提供了标准化的接口，极大地简化了多任务学习中的数据管理复杂性。该数据集的推出，不仅推动了计算机视觉领域的研究进展，还为跨任务的数据集整合与共享提供了新的可能性。

当前挑战

vision-datasets面临的挑战主要体现在两个方面。首先，在解决领域问题时，如何高效处理多任务数据集中的异构数据是一个关键挑战。不同任务的数据格式和注释方式差异较大，如何在统一的框架下兼容这些差异，同时保持数据的高效访问和处理，是一个亟待解决的问题。其次，在数据集构建过程中，如何确保数据注释的准确性和一致性也是一个重要挑战。特别是在多图像注释和复杂任务（如视觉问答和图像文本匹配）中，注释的复杂性显著增加，容易引入噪声和错误。此外，数据集的扩展性和兼容性也需要进一步提升，以支持更多新兴任务和数据格式。

常用场景

经典使用场景

在计算机视觉领域，vision-datasets数据集广泛应用于图像分类、目标检测、图像文本匹配等任务。通过统一的`DatasetManifest`和`ImageDataManifest`接口，研究者能够高效地组织和访问多类型图像数据，支持从单标签分类到多任务学习的多样化需求。该数据集特别适用于需要处理大规模、多模态数据的场景，如自动驾驶中的目标识别、医疗影像分析中的病灶检测等。

衍生相关工作

vision-datasets的推出催生了一系列相关研究工作。例如，基于该数据集的多任务学习框架被广泛应用于自动驾驶和医疗影像分析领域；其支持的关键值对（Key-Value Pair）格式为图像文本匹配和视觉问答任务提供了新的研究思路。此外，该数据集的开源特性也促进了社区合作，推动了计算机视觉领域的技术创新和标准化进程。

数据集最近研究