DeepFashion2

Name: DeepFashion2
Creator: DeepFashion
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/switchablenorms/deepfashion2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为DeepFashion2，其中训练集包含了337,000对商用与消费者衣物配对。在数据使用上，90%的数据被用于训练，而剩余的10%则用于验证。验证集中包含了10,844张消费者图片。规模上，该数据集共有337,000对配对数据，任务专注于时尚衣物检索。

The dataset is named DeepFashion2. Its training set contains 337,000 pairs of commercial and consumer clothing matches. Regarding data utilization, 90% of the data is used for training, while the remaining 10% is reserved for validation. The validation set includes 10,844 consumer images. In terms of scale, this dataset has a total of 337,000 paired data samples, and the task focuses on fashion clothing retrieval.

提供机构：

DeepFashion

搜集汇总

数据集介绍

构建方式

在时尚图像分析领域，构建高质量数据集对于推动算法发展至关重要。DeepFashion2数据集的构建过程体现了严谨的科学方法，其数据来源于DeepFashion原始数据集及在线购物网站，经过系统性清洗与标注。研究团队首先筛选出包含消费者与商业图像配对的数据，并进一步爬取大量网络图像。随后，通过人工标注流程，剔除了遮挡严重、尺度过小或分辨率过低的图像，最终保留了49.1万张图像，涵盖80.1万个服装实例。每个实例均经过多轮人工标注，确保边界框、密集关键点（平均每类别23个）、像素级掩码及服装身份等信息的精确性，从而构建了一个规模宏大且标注详尽的数据集。

特点

DeepFashion2数据集在时尚计算领域展现出多方面的显著特点。其核心优势在于规模与多样性，共包含49.1万张图像，涵盖13个流行服装类别，实例总数达80.1万，并提供了87.3万对商业-消费者图像配对，标注量远超同类数据集。该数据集突破了以往单图像单实例的限制，允许每张图像最多包含7个服装实例，更贴近真实场景。此外，数据集精心控制了尺度、遮挡、缩放和视角四大类变体，每个变体下设三个难度等级，极大增强了数据的挑战性和代表性。标注体系尤为丰富，不仅包含边界框与类别标签，还首次定义了每类服装的密集关键点与姿态骨架，并提供了像素级掩码，为多任务学习提供了坚实基础。

使用方法

DeepFashion2数据集为时尚图像理解研究提供了标准化的评估基准。研究者可依据其划分的训练集（39.1万张图像）、验证集（3.4万张）和测试集（6.7万张）进行模型开发与测试。数据集支持四大核心任务：服装检测与分类、密集关键点与姿态估计、实例分割以及跨域实例级服装检索。评估指标均遵循国际主流标准，如检测任务采用COCO风格的AP指标，关键点估计使用OKS相似度计算AP，分割任务评估掩码精度，检索任务则采用top-k准确率。数据集鼓励开发如Match R-CNN般的端到端多任务模型，并可通过分析不同难度子集（如不同遮挡程度）的性能，深入探究算法在复杂真实场景下的鲁棒性。

背景与挑战

背景概述

在计算机视觉领域，时尚图像分析因其在电子商务和虚拟试衣等工业应用中的巨大潜力而成为研究热点。DeepFashion2数据集由香港中文大学和商汤科技的研究团队于2019年共同创建，旨在解决先前时尚数据集如DeepFashion在真实场景中存在的局限性。该数据集的核心研究问题聚焦于多任务时尚图像理解，包括衣物检测、姿态估计、实例分割以及跨域检索。通过提供491K图像和801K衣物实例的丰富标注，如密集关键点、像素级掩码和商业-消费者图像对，DeepFashion2显著推动了时尚分析算法的发展，成为该领域最具综合性的基准之一。

当前挑战

DeepFashion2所解决的领域问题涉及多任务时尚图像理解，其挑战主要源于衣物在真实场景中的高度复杂性。例如，衣物的大规模形变、遮挡以及商业与消费者图像间的域差异，使得精确检测、分割和检索变得困难。在构建过程中，数据采集与标注面临诸多挑战：需要处理图像中多个衣物实例的共存问题，为13个不同类别定义密集且类别特定的关键点（平均每类23个），并在复杂人体姿态下进行高精度像素级掩码标注。此外，数据还需涵盖尺度、遮挡、缩放和视角等多种变异，以确保数据集的多样性和现实代表性。

常用场景

经典使用场景

在时尚图像分析领域，DeepFashion2数据集常被用作评估多任务学习模型的基准平台。其丰富的标注信息，包括密集关键点、像素级掩码及跨域图像对，使得研究者能够在一个统一框架下同时探索服装检测、姿态估计、分割和检索任务。该数据集通过模拟真实世界中的尺度变化、遮挡、缩放和视角多样性，为算法提供了接近实际应用场景的挑战，从而推动了计算机视觉在时尚理解方面的前沿进展。

衍生相关工作

DeepFashion2的发布催生了一系列经典研究工作，尤其是在多任务学习框架和跨域检索模型方面。以Match R-CNN为代表的基线模型，通过集成检测、姿态估计、分割和检索流，展示了端到端学习在时尚图像理解中的潜力。后续研究在此基础上进一步探索了生成对抗网络用于服装图像合成、多域自适应学习以应对时尚趋势变化，以及更高效的实时推理模型，持续拓展了该数据集在学术与工业界的应用边界。

数据集最近研究