Clothing-ADC

Name: Clothing-ADC
Creator: 加州大学圣克鲁兹分校
Published: 2024-08-21 12:45:12
License: 暂无描述

arXiv2024-08-21 更新2024-08-23 收录

下载链接：

https://drive.google.com/file/d/1U-NXvHfmUUqL1l5_PspBIcJwXrlxHZe4/view

下载链接

链接失效反馈

官方服务：

资源简介：

Clothing-ADC数据集由加州大学圣克鲁兹分校的研究团队创建，专注于服装图像的分类任务。该数据集包含1,076,738张图像，分辨率为256x256像素，分为12个主要类别和12,000个子类别。数据集的创建过程利用了大型语言模型进行自动化的类别设计和样本收集，显著减少了人工标注的工作量。Clothing-ADC数据集主要用于研究标签噪声检测和学习，以及类别不平衡学习等问题，旨在提高机器学习模型在复杂任务中的性能和鲁棒性。

The Clothing-ADC dataset was created by a research team at the University of California, Santa Cruz, focusing on clothing image classification tasks. It contains 1,076,738 images with a resolution of 256×256 pixels, which are divided into 12 main categories and 12,000 sub-categories. The dataset construction process leverages large language models for automated category design and sample collection, significantly reducing the workload of manual annotation. The Clothing-ADC dataset is primarily used for research on label noise detection and learning, as well as class-imbalanced learning and other related issues, aiming to improve the performance and robustness of machine learning models in complex tasks.

提供机构：

加州大学圣克鲁兹分校

创建时间：

2024-08-21

搜集汇总

数据集介绍

构建方式

Clothing-ADC数据集的构建采用了自动数据集构建（ADC）方法。该方法利用大型语言模型（LLM）进行详细类别设计，并通过代码生成从搜索引擎中收集相关样本。ADC流程包括三个主要步骤：数据集设计、自动查询和下载、数据清理和清洗。在数据集设计阶段，LLM通过处理和分析大量概念，帮助研究人员进行更彻底的搜索，并生成每个类别的属性类型。然后，通过自动查询和下载步骤，使用Google Images或Bing Images的API进行自动化搜索和下载。最后，在数据清理和清洗阶段，使用数据清理软件（如Docta）来识别和过滤掉无关的图像，并通过算法处理或众包来纠正标签错误。

特点

Clothing-ADC数据集具有以下特点：1）规模庞大，包含超过一百万张服装图像，每个服装类型有超过一千个子类别；2）类别层次丰富，支持研究各种复杂和新颖的任务；3）数据质量高，通过自动化和最小化人工干预来减少人工标注的误差；4）包含标签噪声和类不平衡分布的挑战，为研究人员提供了探索和解决这些问题的平台。

使用方法

使用Clothing-ADC数据集的方法包括：1）下载和安装数据集，可以使用Google Drive进行下载；2）加载和预处理数据，可以使用代码加载训练集、验证集和测试集，并进行数据预处理；3）模型训练和评估，可以使用ResNet-50等骨干模型进行训练，并使用交叉熵等损失函数进行评估；4）标签噪声检测和类不平衡学习，可以使用提供的基准数据集和算法进行研究和比较。

背景与挑战

背景概述

在机器学习和人工智能领域，大规模数据集的构建对于开发个性化训练数据、缓解训练数据短缺以及微调专用模型至关重要。Clothing-ADC数据集是自动数据集构建（Automatic Dataset Construction, ADC）方法的一个应用实例，由Minghao Liu、Zonglin Di、Jiaheng Wei等人于2024年提出。ADC方法旨在通过自动化数据集创建过程，以极低的成本和高效率解决传统数据集构建过程中耗时、成本高且易出错的问题。Clothing-ADC数据集包含超过一百万张服装图片，每个服装类型有超过一千个子类，为图像分类任务提供了丰富的类别层次结构，为研究复杂任务提供了支持。

当前挑战

Clothing-ADC数据集在自动构建过程中面临了两个主要挑战：标签噪声和数据分布不平衡。标签噪声是指由于网络数据的非人工审核性质导致的标签不准确问题，这可能会影响机器学习模型的训练和性能。数据分布不平衡则是指某些类别拥有大量样本，而其他类别样本较少，这可能导致模型对少数类别的识别能力下降。为了应对这些挑战，研究人员提供了开源软件，用于标签错误检测、在噪声和偏差数据下的鲁棒学习，以确保更高质量的训练数据和更稳健的模型训练过程。此外，还设计了三个基准数据集，分别关注标签噪声检测、标签噪声学习和类别不平衡学习，以促进相关领域的研究。

常用场景

经典使用场景

Clothing-ADC数据集在图像分类任务中具有广泛应用，尤其适用于个性化训练数据开发、缓解训练数据短缺和微调专用模型。该数据集通过自动数据收集方法，利用大型语言模型进行详细类别设计，并通过搜索引擎收集相关样本，显著减少了手动标注的需求，加快了数据生成过程。

衍生相关工作

Clothing-ADC数据集的提出推动了自动数据集构建领域的研究，衍生了一系列相关工作。这些工作包括利用大型语言模型进行数据集设计、自动化样本收集和标签清理，以及针对标签噪声和类别不平衡学习问题的解决方案。这些研究成果为构建高质量数据集和训练鲁棒的机器学习模型提供了重要参考。

数据集最近研究