clothes-dataset

github2023-10-06 更新2024-05-31 收录

下载链接：

https://github.com/deerslab/clothes-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含来自Aliexpress产品评论的照片数据集。共有379186张图片，数据量约30Gb。该数据集非常适合用于训练模型以找到相似的图像。数据集通过半手动方式进行了清理，部分图像被标记为好/坏。然后训练了一个模型来清理剩余的数据集。

This is a photo dataset sourced from product reviews on AliExpress. It contains a total of 379,186 images with an overall size of approximately 30 GB. This dataset is well-suited for training models to perform image similarity matching. The dataset was cleaned via a semi-manual workflow, where some images were annotated as "good" or "bad". Subsequently, a dedicated model was trained to clean the remaining portion of the dataset.

创建时间：

2019-11-11

原始信息汇总

数据集概述

数据集内容

类型：照片数据集
来源：Aliexpress产品评论
规模：379,186张图片，约30GB数据
用途：适用于训练模型以识别相似图像

数据集结构

列名	描述
id	Aliexpress产品的唯一标识符，每个产品可能有多种颜色
category	服装类别，如裙子
color	当前物品的颜色，值可能不总是有意义，取决于卖家填写的内容
source	每个产品的来源，可能值为shop（通常是高质量照片）和customer（接近生活照片）
url	图片的URL地址

数据集处理

数据集通过半手动方式进行清理
部分图像已标注为“好/坏”，例如包裹照片
通过训练模型清理剩余数据集

贡献方式

用户可以通过提交pull request来添加或报告不良照片

搜集汇总

数据集介绍

构建方式

clothes-dataset数据集构建于Aliexpress产品评论中的照片，包含379,186张图像，数据量约为30GB。数据集的构建过程涉及半自动化的清洗步骤，部分图像被手动标注为优质或劣质（如包装照片），随后训练了一个模型来自动清理剩余数据。这一过程确保了数据集的质量和可用性。

特点

该数据集的特点在于其多样性和实用性。每张图像都附带有产品ID、类别、颜色和来源等详细信息，来源分为‘shop’和‘customer’两类，分别代表商家提供的优质照片和顾客上传的生活化照片。这种多样性使得数据集非常适合用于训练图像相似性识别模型，尤其是在服装领域。

使用方法

使用clothes-dataset时，首先需要通过提供的download.py脚本下载图像。数据集的结构清晰，每张图像都有详细的元数据，便于进行探索性数据分析（EDA）。用户可以参考提供的EDA示例（eda.ipynb）进行初步分析。此外，数据集支持社区贡献，用户可以通过提交pull request来改进数据集，如标记劣质图像或添加新数据。

背景与挑战

背景概述

clothes-dataset数据集由Aliexpress产品评论中的照片构成，包含379,186张图像，数据量约为30GB。该数据集由deerslab团队创建，旨在为图像相似性搜索等任务提供高质量的图像数据。数据集中的每张图像均附有产品ID、类别、颜色、来源（商家或顾客）以及图像URL等元数据。数据集的构建过程结合了半自动化的清洗和标注方法，部分图像经过人工标注，其余则通过训练模型进行自动清洗。该数据集为服装图像分析、推荐系统等领域的研究提供了重要的数据支持。

当前挑战

clothes-dataset数据集在构建和应用中面临多重挑战。首先，图像来源的多样性导致数据质量参差不齐，商家提供的图像通常质量较高，而顾客上传的图像则更接近真实场景，但可能存在模糊、光线不佳等问题。其次，数据清洗过程虽然结合了人工标注和模型自动处理，但仍可能存在误判或遗漏，影响数据集的整体质量。此外，服装类别的多样性和颜色描述的模糊性增加了图像分类和相似性搜索的难度。如何进一步提升数据清洗的自动化水平，并优化模型对复杂场景的适应能力，是该数据集未来需要解决的关键问题。

常用场景

经典使用场景

clothes-dataset数据集广泛应用于图像相似性搜索模型的训练。其包含的37万余张来自Aliexpress商品评论的图片，涵盖了多种服装类别和颜色，为模型提供了丰富的视觉特征。通过该数据集，研究人员能够训练出能够准确识别和匹配相似服装图像的深度学习模型，从而在电子商务平台中实现高效的图像搜索和推荐功能。

衍生相关工作

clothes-dataset的发布催生了一系列相关研究，特别是在图像相似性搜索和服装识别领域。许多研究基于该数据集开发了新的深度学习模型，如卷积神经网络（CNN）和生成对抗网络（GAN），用于提高图像匹配的准确性和效率。此外，该数据集还被用于跨模态检索研究，探索图像与文本之间的关联，进一步拓展了其应用范围。

数据集最近研究