oxford-iiit-pet-vl-enriched

Hugging Face2024-07-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/visual-layer/oxford-iiit-pet-vl-enriched

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Oxford IIIT Pets数据集的增强版本，包含图像标题和边界框信息。数据集适用于图像分类和目标检测任务，包含6个列：`image_id`（图像的唯一标识符）、`image`（PIL图像数据）、`label_cat_dog`（图像的猫狗标签）、`label_breed`（猫狗品种标签）、`label_bbox_enriched`（包含边界框坐标、置信度和标签的增强标签）和`caption_enriched`（图像的增强标题）。

This dataset is an enhanced version of the Oxford-IIIT Pets Dataset, which includes image captions and bounding box information. It is suitable for image classification and object detection tasks, and contains 6 columns: `image_id` (unique identifier of the image), `image` (PIL image data), `label_cat_dog` (cat/dog classification label for the image), `label_breed` (cat/dog breed label), `label_bbox_enriched` (enhanced label containing bounding box coordinates, confidence score and category label), and `caption_enriched` (enhanced captions for the image).

创建时间：

2024-07-04

原始信息汇总

数据集概述

语言

英语 (en)

任务类别

图像分类
目标检测
视觉问答
文本到图像
图像到文本

配置

默认配置 (default)
- 数据文件路径
  - 训练集 (train): data/train-*
  - 测试集 (test): data/test-*

数据集信息

特征

image_id: 图像的唯一标识符，类型为字符串。
image: 图像数据，类型为图像。
label_cat_dog: 图像标签，表示是猫还是狗，类型为字符串。
label_breed: 图像标签，表示猫或狗的品种，包含37种猫和狗的品种，类型为字符串。
caption_enriched: 图像的丰富描述，类型为字符串。
label_bbox_enriched: 图像的丰富标签，包含边界框坐标、置信度和标签，类型为列表。
- bbox: 边界框坐标，类型为整数序列。
- label: 边界框标签，类型为字符串。
issues: 图像质量问题，类型为列表。
- confidence: 置信度，类型为浮点数。
- description: 描述，类型为空。
- issue_type: 问题类型，类型为字符串。

数据集分割

训练集 (train)
- 字节数: 148786604
- 样本数: 3680
测试集 (test)
- 字节数: 133006684.375
- 样本数: 3669

数据集大小

下载大小: 281256366 字节
数据集大小: 281793288.375 字节

搜集汇总

数据集介绍

构建方式

Oxford-IIIT-Pets-VL-Enriched数据集是基于Oxford IIIT Pets数据集的增强版本，通过引入图像描述、边界框标注以及标签问题等额外信息，进一步扩展了其应用范围。数据集的构建过程中，使用了YOLOv8模型生成边界框坐标及其置信度评分，并通过BLIP2模型生成图像描述。此外，数据集还包含了图像质量问题的标注，如重复、标签错误、模糊等，以确保数据的纯净度。

特点

该数据集包含了丰富的标注信息，涵盖了图像的唯一标识符、图像数据、猫狗分类标签、品种标签、增强的边界框标注以及图像描述。特别值得一提的是，边界框标注和图像描述均由先进的深度学习模型生成，确保了标注的准确性和丰富性。此外，数据集还提供了图像质量问题的详细标注，帮助用户更好地筛选和利用数据。

使用方法

用户可以通过Hugging Face的Datasets库轻松加载该数据集，具体操作如下：python import datasets ds = datasets.load_dataset("visual-layer/oxford-iiit-pet-vl-enriched") 。此外，数据集还支持在Visual Layer平台上进行交互式可视化，用户无需注册即可直接访问并探索数据。该数据集适用于图像分类、目标检测、视觉问答等多种任务，极大地扩展了其应用场景。

背景与挑战

背景概述

Oxford-IIIT-Pets-VL-Enriched数据集是基于牛津IIIT宠物数据集的增强版本，由Visual Layer团队开发。该数据集最初由牛津大学视觉几何组（VGG）创建，旨在为宠物图像分类和识别提供高质量的数据支持。增强版本通过引入图像描述、边界框标注以及标签问题检测，进一步扩展了其应用范围，涵盖了图像检索、视觉问答等任务。该数据集的创建时间为2024年，核心研究问题在于如何通过多模态数据增强提升宠物图像分析的精度与鲁棒性。其影响力不仅限于计算机视觉领域，还为多模态学习提供了重要的实验平台。

当前挑战

Oxford-IIIT-Pets-VL-Enriched数据集在解决宠物图像分类、目标检测和视觉问答等任务时面临多重挑战。首先，宠物图像的多样性（如姿态、光照、背景复杂性）增加了模型训练的难度，要求算法具备更强的泛化能力。其次，构建过程中，标注的准确性与一致性是关键挑战，尤其是在边界框标注和图像描述生成中，模型可能因数据噪声或标注偏差而表现不佳。此外，数据集中存在的质量问题（如模糊、重复或异常图像）需要通过复杂的质量控制机制进行筛选与修正，以确保数据的高可靠性。这些挑战共同构成了该数据集在应用与研究中的核心难点。

常用场景

经典使用场景

在计算机视觉领域，oxford-iiit-pet-vl-enriched数据集被广泛应用于图像分类、目标检测、视觉问答以及文本到图像生成等任务。其丰富的标注信息，包括图像描述、边界框和标签问题，使得该数据集在训练和评估深度学习模型时表现出色，尤其是在宠物品种识别和图像检索等具体任务中。

衍生相关工作

基于oxford-iiit-pet-vl-enriched数据集，许多经典研究工作得以展开。例如，研究人员利用其丰富的标注信息开发了更精确的目标检测模型，并在视觉问答任务中取得了显著进展。此外，该数据集还催生了一系列关于数据清洗和标注质量优化的研究，为计算机视觉领域的进一步发展提供了重要参考。

数据集最近研究