Package Recommendation Dataset for the Clothes Domain

github2020-09-22 更新2024-05-31 收录

下载链接：

https://github.com/atwRecsys/PackageRecDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从亚马逊产品数据中随机选取的1400件上衣和600件下衣的图像，以及从200名亚马逊机械土耳其人参与者那里获得的每件衣物和组合包装的30个评分。数据集用于衣服领域的包装推荐研究。

This dataset comprises images of 1,400 randomly selected tops and 600 bottoms from Amazon product data, along with 30 ratings for each garment and combination package obtained from 200 Amazon Mechanical Turk participants. The dataset is utilized for research in the field of clothing packaging recommendations.

创建时间：

2017-07-19

原始信息汇总

数据集概述

数据集内容

领域：服装搭配推荐
数据来源：随机选取自Amazon产品数据中的1,400件上衣和600件下装图片
数据收集：通过Amazon Mechanical Turk招募200名参与者，对每件上衣和下装以及它们的组合进行评分
评分方式：参与者对上衣、下装及两者组合的喜好程度进行1至5分的评分
数据量：共收集12,000次个人评分和6,000次组合评分

数据集结构

文件概览：
- itemReferences.csv：包含2,000行，涉及ASIN、itemID和clothesType三个属性
- items.csv：包含2,000行itemID
- user.csv：包含200行匿名userID
- training_individual_0*.csv：包含9,000行，涉及userID、itemID、个人评分和clothesType
- training_package_0*.csv：包含4,500行，涉及userID、topID、bottomID和组合评分
- testing_package_0*.csv：包含1,500行，涉及userID、topID、bottomID和组合评分

数据集使用

引用信息：若使用此数据集，请引用论文《Matrix Factorization for Package Recommendations》（A. Wibowo et al., ComplexRec 2017）

搜集汇总

数据集介绍

构建方式

该数据集的构建基于亚马逊产品数据，从中随机选取了1,400件上衣和600件下装的图片，并通过亚马逊土耳其机器人平台招募了200名参与者进行评分。每位参与者首先选择其偏好的性别类别，随后在30个屏幕中分别对上衣、下装及其组合进行1至5分的评分。通过这种方式，共收集了12,000条单品评分和6,000条组合评分。为确保数据的全面性，采用了4折交叉验证的方法，将单品评分分为四部分，轮流使用其中三部分作为训练集，剩余部分作为测试集。组合评分则采用25%作为训练集，75%作为测试集。

特点

该数据集的特点在于其专注于服装领域的组合推荐，涵盖了上衣与下装的多种搭配可能性。数据集包含2,000个服装单品，分别标记为上衣或下装，并通过200名用户的评分数据，提供了丰富的单品及组合评分信息。数据集的评分范围从1到5分，能够有效反映用户对单品及组合的偏好程度。此外，数据集的构建方法确保了训练集与测试集的合理划分，为推荐算法的验证提供了坚实的基础。

使用方法

该数据集的使用方法主要包括数据加载、模型训练与评估三个步骤。首先，通过加载itemReferences.csv、items.csv和user.csv文件，获取服装单品及用户的基本信息。随后，利用training_individual_0*.csv和training_package_0*.csv文件中的评分数据进行模型训练，训练过程中可采用矩阵分解等推荐算法。最后，使用testing_package_0*.csv文件中的组合评分数据进行模型评估，验证推荐算法的准确性与有效性。数据集的结构清晰，便于研究者快速上手并进行实验分析。

背景与挑战

背景概述

Package Recommendation Dataset for the Clothes Domain 数据集由A. Wibowo等研究人员于2017年创建，旨在解决服装领域的组合推荐问题。该数据集基于亚马逊产品数据，通过随机选择1,400件上衣和600件下装图片，并招募200名亚马逊土耳其机器人平台的参与者进行评分，生成了12,000条单品评分和6,000条组合评分。该数据集的研究背景源于组合推荐领域的稀缺性，尤其是在服装搭配这一特定领域。通过引入矩阵分解技术，该数据集为个性化服装搭配推荐提供了重要的数据支持，推动了推荐系统在时尚领域的应用与发展。

当前挑战

该数据集面临的主要挑战包括两个方面：首先，组合推荐问题的复杂性远高于单一物品推荐，因为需要考虑多个物品之间的兼容性和用户对组合的整体偏好。其次，数据集的构建过程中，如何确保评分数据的多样性和代表性是一个关键挑战。尽管通过4折交叉验证和部分数据保留机制来模拟真实场景，但如何有效处理稀疏数据、平衡用户偏好与物品组合的多样性仍是亟待解决的问题。此外，服装领域的时尚趋势变化迅速，如何使数据集保持时效性并适应动态变化的用户需求，也是未来研究的重要方向。

常用场景

经典使用场景

在服装推荐系统中，Package Recommendation Dataset for the Clothes Domain数据集被广泛应用于研究如何推荐搭配服装的组合。该数据集通过收集用户对单件衣物及其组合的评分，为研究者提供了一个模拟真实用户偏好的环境，从而能够有效地测试和优化推荐算法。

衍生相关工作

基于该数据集，研究者们已经开发了多种推荐算法，如矩阵分解和深度学习模型，这些算法在提高推荐准确性和用户满意度方面取得了显著成效。此外，该数据集还激发了关于用户行为分析和偏好预测的进一步研究，推动了服装推荐系统领域的技术进步。

数据集最近研究