polyvore1000

Hugging Face2025-08-25 更新2025-08-26 收录

下载链接：

https://huggingface.co/datasets/codewaly/polyvore1000

下载链接

链接失效反馈

官方服务：

资源简介：

Polyvore-1000数据集是一个针对个性化时尚推荐任务设计的数据集。它包含了用户与商品间的交互信息、商品详细信息、时尚搭配套装信息、用户偏好和用户基本信息。数据集根据不同的使用场景被分为训练集、验证集和测试集，每个集合都包含了不同数量的样本。数据集的配置包括items（商品信息）、kits（搭配套装信息）、users（用户信息）和interactions（用户与商品交互信息）。

创建时间：

2025-08-23

原始信息汇总

Polyvore-1000 数据集概述

数据集简介

Polyvore-1000是一个专为时尚领域个性化推荐设计的数据集，基于Han等人（2017）的Polyvore-U分割方案构建，并借鉴了Lu等人（CVPR 2019）基于二进制代码的创新推荐方法。

数据结构

配置信息

1. 交互数据（interactions）

特征字段：
- user_id：字符串类型
- item_id：字符串类型
- interaction_type：字符串类型
- date：字符串类型
数据规模：
- 训练集：11,671个样本，783,621字节
- 验证集：11,108个样本，745,344字节
- 测试集：11,106个样本，745,208字节
下载大小：630,861字节
总数据集大小：2,274,173字节

2. 商品数据（items）

特征字段：
- item_id：字符串类型
- master_category：字符串类型
- product_name：字符串类型
- price：浮点数类型
- image：图像类型
- release_date：字符串类型
- dominant_color：字符串类型
数据规模：
- 训练集：6,671个样本，175,355,180.864字节
- 验证集：6,108个样本，164,882,146.808字节
- 测试集：6,106个样本，173,883,456.346字节
下载大小：503,746,090字节
总数据集大小：514,120,784.018字节

3. 套装数据（kits）

特征字段：
- kit_id：字符串类型
- kit_name：字符串类型
- description：字符串类型
- user_id：字符串类型
- image：图像类型
- views：整型
- likes：整型
- date：字符串类型
数据规模：
- 训练集：1,000个样本，88,329,128字节
- 验证集：1,000个样本，93,640,984字节
- 测试集：1,000个样本，95,999,769字节
下载大小：277,139,112字节
总数据集大小：277,969,881字节

4. 用户画像数据（user_profiles）

特征字段：
- user_id：字符串类型
- preferred_colors：字符串列表
- preferred_categories：字符串列表
数据规模：
- 训练集：1,000个样本，98,798字节
- 验证集：1,000个样本，99,085字节
- 测试集：1,000个样本，99,134字节
下载大小：61,023字节
总数据集大小：297,017字节

5. 用户数据（users）

特征字段：
- user_id：字符串类型
- user_name：字符串类型
数据规模：
- 训练集：1,000个样本，31,000字节
- 验证集：1,000个样本，31,000字节
- 测试集：1,000个样本，31,000字节
下载大小：64,111字节
总数据集大小：93,000字节

分割比例

采用与Polyvore-U相同的分割比例：17,316个训练套装/1,497个验证套装/3,076个测试套装

图像组织方式

图像存储在images/<kit_id>/目录下：

0.jpg：套装（kit）图像
1.jpg、2.jpg等：对应套装中商品的图像，按JSON数据顺序排列

引用文献

Han, X., et al. (2017). Learning Fashion Compatibility with Bidirectional LSTMs. ACM Multimedia.
Lu, Z., et al. (2019). Learning Binary Code for Personalized Fashion Recommendation. CVPR.

搜集汇总

数据集介绍

构建方式

在时尚推荐系统研究领域，Polyvore-1000数据集基于Han等人（2017）提出的Polyvore-U分割框架构建，并融合了Lu等人（CVPR 2019）的二进制编码创新方法。该数据集通过系统化采集用户与时尚单品的交互记录，包含物品详情、搭配组合、用户画像等多模态数据，并严格遵循训练集、验证集和测试集的标准划分比例，确保了数据结构的完整性与可比性。

使用方法

研究者可通过 Hugging Face 数据集库直接加载不同配置的数据子集，例如使用 load_dataset 函数分别调用 items、kits、users 及 interactions 配置。数据集支持典型推荐系统任务如搭配生成、用户行为预测和跨模态检索，并可结合图像处理与序列建模方法开展实验。使用前需通过 Hugging Face 认证以获取访问权限，确保数据使用的合规性与安全性。

背景与挑战

背景概述

时尚计算领域在个性化推荐系统的发展中，Polyvore-1000数据集由Waly NGOM博士基于Han等人（2017年）的Polyvore-U分割构建，并融合了Lu等人（CVPR 2019）的二进制编码创新方法。该数据集专注于时尚搭配的兼容性学习与个性化推荐，通过包含用户交互、商品属性及搭配组合的多模态数据，推动了时尚推荐算法在真实场景中的应用与验证，对计算机视觉与推荐系统的交叉研究产生了显著影响。

当前挑战

该数据集核心挑战在于解决时尚搭配中的个性化推荐问题，包括多模态数据融合、搭配兼容性建模以及用户偏好动态捕捉。构建过程中面临数据稀疏性、商品属性异构性及用户交互噪声等难题，同时需保持时尚趋势的时效性与搭配风格的多样性，确保推荐结果既符合审美一致性又满足个性化需求。

常用场景

经典使用场景

在时尚计算领域，Polyvore-1000数据集被广泛应用于个性化穿搭推荐系统的研究与开发。该数据集通过记录用户与时尚单品的交互行为，包括浏览、点赞和搭配组合等，为研究人员提供了丰富的多模态数据。这些数据能够训练深度学习模型学习时尚单品的兼容性规则，从而生成符合用户偏好的个性化穿搭方案。数据集的结构化设计使得模型能够同时考虑视觉特征和语义信息，提升了推荐系统的准确性和多样性。

解决学术问题

该数据集有效解决了时尚推荐系统中的若干关键学术问题，包括跨品类商品兼容性建模、多模态特征融合以及用户偏好动态建模。通过提供真实的用户交互数据和高质量的图像信息，研究者能够开发新颖的算法来理解时尚单品的视觉协调性和风格一致性。这些研究推动了推荐系统领域的发展，特别是在处理非结构化时尚数据方面取得了显著进展，为个性化时尚服务奠定了理论基础。

实际应用

在实际应用层面，Polyvore-1000数据集支撑了多个商业场景的实现。电商平台利用其训练的商品推荐引擎能够为用户提供个性化的穿搭建议，增强购物体验。时尚社交媒体平台基于该数据集开发的内容生成系统可以自动创建协调的穿搭组合，提升用户参与度。虚拟试衣间和时尚顾问应用也借助这些数据提供更精准的风格推荐服务，推动了时尚产业的数字化转型。

数据集最近研究