thivav/zalando_fashionista_x100
收藏Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/thivav/zalando_fashionista_x100
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从Zalando电子商务平台抓取的各种服装和配饰商品的信息。每个条目对应一个具体的商品,并包含多个属性来描述该商品,如图像、SKU、名称、品牌、类别、URL、尺寸、分类标签、原价、折扣百分比和促销价格。数据集分为训练集,包含192,126个样本,总大小为669,755,385.72字节。所有图像的尺寸为100x144像素。
This dataset contains information about various clothing and accessories items scraped from the Zalando eCommerce platform. Each entry in the dataset corresponds to a specific item and includes several attributes that describe the item in detail, such as image, SKU, name, brand, category, URL, sizes, classification, original price, discount percentage, and promotional price. Each item has an associated image with a size of 100x144 pixels. The training split of the dataset contains 192126 samples with a total size of 669755385.72 bytes.
提供机构:
thivav
原始信息汇总
Zalando Clothing & Accessories Dataset
数据集概述
该数据集包含从Zalando电子商务平台抓取的各种服装和配饰项目的信息。每个条目对应一个特定的项目,并包含多个描述该项目的属性。
数据集列
- image: 服装的图像。
- sku: 项目的库存单位(SKU),这是一个唯一标识符。
- name: 项目的名称。
- brand: 项目的品牌。
- category: 项目所属的类别。
- url: 项目在Zalando网站上的页面URL。
- sizes: 项目的可用尺寸及其对应的SKU。
- classification: 分类标签,如“NEW”或“DEAL”。
- original_price: 项目的原始价格。
- discount_percentage: 适用的折扣百分比(如果有)。
- promotional_price: 项目在促销中的价格(如果有)。
图像详情
每个项目都有一个尺寸为100x144像素的关联图像。
示例条目
以下是数据集中的一些示例条目:
| sku | name | brand | category | url | sizes | classification | original_price | discount_percentage | promotional_price | image |
|---|---|---|---|---|---|---|---|---|---|---|
| JAM22T04V-O14 | BLAMELTON SN - Short coat - greige | Jack & Jones PREMIUM | [Coats] | Link | [{size: XS, sku: JAM22T04V-O1400XS000}] | [] | 149,99 € | NaN | NaN | JAM22T04V-O14_x100.jpg |
| IJ022T03E-K11 | Parka - navy | INDICODE JEANS | [Coats] | Link | [{size: S, sku: IJ022T03E-K11000S000}, ...] | [DEAL] | 114,99 € | up to -9% | 104,99 € | IJ022T03E-K11_x100.jpg |
| SU222T0VZ-M11 | Winter coat - duffle bag | Superdry | [Coats] | Link | [{size: S, sku: SU222T0VZ-M11000S000}, ...] | [] | 239,99 € | NaN | NaN | SU222T0VZ-M11_x100.jpg |
| OM422T06R-Q11 | Short coat - black | Ombre | [Coats] | Link | [{size: S, sku: OM422T06R-Q11000S000}, ...] | [NEW] | 100,99 € | NaN | NaN | OM422T06R-Q11_x100.jpg |
| IC622T05X-Q11 | CLIMA IGLU - Winter coat - schwarz | ICEBOUND | [Coats, Jackets] | Link | [{size: S, sku: IC622T05X-Q11000S000}, ...] | [DEAL] | 289,95 € | up to -52% | 139,76 € | IC622T05X-Q11_x100.jpg |
数据集大小
- 训练集: 包含192126个样本,大小为669755385.72字节。
- 下载大小: 607819116字节。
- 数据集总大小: 669755385.72字节。
搜集汇总
数据集介绍

构建方式
在时尚电商数据领域,Zalando Clothing & Accessories Dataset的构建依托于网络爬虫技术,从Zalando电商平台系统性地采集商品信息。该过程涉及对平台页面的结构化解析,提取包括图像、SKU、品牌、类别、价格及促销详情在内的多维度属性,确保了数据的原始性与完整性。所有图像均统一处理为100x144像素规格,便于后续计算分析,最终形成包含超过19万条样本的大规模数据集,为时尚计算研究提供了扎实的数据基础。
特点
该数据集的核心特点在于其丰富的多模态属性与精细的商品标注。每一条记录不仅包含标准化的商品图像,还整合了SKU唯一标识、品牌归属、多层次分类标签以及动态价格信息,其中分类字段如“NEW”或“DEAL”能够反映商品的时效状态。图像尺寸的一致性与结构化文本属性的结合,使得数据集同时适用于视觉识别、文本分析及跨模态学习任务,为时尚推荐、趋势预测等应用场景提供了高度可扩展的数据支持。
使用方法
在应用层面,该数据集可广泛服务于计算机视觉与自然语言处理交叉领域的研究与实践。研究者可利用其图像数据训练服装检测与分类模型,同时结合文本属性进行多模态嵌入学习,以提升时尚商品检索与个性化推荐的准确性。数据中的价格与促销字段还可用于市场需求分析与定价策略研究。使用前需通过HuggingFace平台加载数据集,并依据任务需求对图像与文本字段进行预处理,确保模型输入的统一性与有效性。
背景与挑战
背景概述
在电子商务与计算机视觉交叉领域,时尚商品数据的系统化收集对推动智能推荐、视觉搜索及市场分析至关重要。Zalando Fashionista x100数据集由研究者thivav构建,其核心研究问题聚焦于如何整合多模态信息——包括商品图像、品牌、类别、价格及促销标签等结构化属性,以支持时尚领域的深度学习模型训练。该数据集源自欧洲知名电商平台Zalando,通过网页爬取技术聚合了超过19万条服装与配饰商品记录,每项记录均关联统一尺寸的缩略图,为时尚计算研究提供了丰富的真实世界数据基础,显著促进了商品识别、个性化推荐及趋势预测等方向的发展。
当前挑战
该数据集旨在应对时尚电商领域商品多属性联合建模的挑战,例如跨类别细粒度分类、基于视觉与文本的多模态融合,以及动态定价与促销策略的预测分析。在构建过程中,面临数据采集与清洗的复杂性:电商页面结构多变导致信息提取需应对异构布局;图像尺寸统一为100x144像素虽便于处理,但可能损失细节,影响高精度视觉任务;商品属性如分类标签存在不一致或缺失,需额外标注或归一化处理;此外,价格与促销信息的动态更新要求数据集持续维护以保持时效性。
常用场景
经典使用场景
在时尚电商与计算机视觉交叉领域,Zalando Fashionista X100数据集为服装识别与分类任务提供了标准化基准。该数据集整合了海量商品图像与结构化元数据,如品牌、类别和价格信息,使得研究人员能够构建精准的视觉模型,用于自动化服装属性标注和风格分析。其经典应用场景包括训练深度学习模型进行多标签分类,以识别服装的细粒度类别,如外套、夹克等,同时支持跨模态检索任务,实现图像与文本描述的语义对齐。
衍生相关工作
围绕该数据集,学术界衍生出多项经典工作,包括基于卷积神经网络的服装属性预测模型和跨模态检索系统。例如,研究团队利用其图像与文本数据开发了联合嵌入方法,实现了从视觉到语义的高效映射;此外,生成对抗网络也被应用于时尚图像合成,以扩展数据多样性。这些工作不仅验证了数据集的实用性,还推动了时尚人工智能技术的持续演进。
数据集最近研究
最新研究方向
在时尚电商与计算机视觉交叉领域,Zalando数据集正推动多模态智能系统的前沿探索。该数据集整合了商品图像与结构化属性信息,为时尚推荐、视觉搜索及生成式设计提供了丰富的研究基础。当前热点聚焦于利用深度学习模型实现跨模态对齐,例如通过对比学习将图像特征与文本描述(如品牌、类别)进行语义关联,以提升个性化推荐精度。同时,生成式人工智能的兴起促使研究者基于该数据集训练扩散模型,合成符合特定风格或属性的虚拟服饰,助力可持续时尚与虚拟试穿应用。这些进展不仅优化了电商平台的用户体验,也为时尚产业的数字化创新注入了新动力。
以上内容由遇见数据集搜集并总结生成



