Inditex Hackathon Dataset

github2025-01-28 更新2025-02-17 收录

下载链接：

https://github.com/pedrochans/hackathon-inditex-data-recommender

下载链接

链接失效反馈

官方服务：

资源简介：

Inditex黑客松数据集包含用户数据、产品数据以及训练和测试数据，用于个性化推荐系统。用户数据包括用户标识、国家、购买频率、消费金额等信息。产品数据包括折扣信息、产品图片的嵌入表示、产品标识、颜色标识、产品类别等。训练和测试数据记录了用户与产品的交互信息，如会话标识、日期、时间戳、用户标识、产品标识等。

The Inditex Hackathon Dataset encompasses user data, product data, as well as training and test data, which is tailored for personalized recommendation systems. The user data includes information such as user ID, country, purchase frequency, and consumption amount. The product data covers discount information, embedding representations of product images, product ID, color ID, product category and other relevant attributes. The training and test data record the interaction information between users and products, including session ID, date, timestamp, user ID, product ID and other related details.

创建时间：

2025-01-28

原始信息汇总

Recommender System Data Overview

数据集背景

随着电子商务和数字零售的增长，个性化购物体验成为提高客户满意度和增加销量的关键。推荐系统是达成此目的的有效方式，通过分析浏览历史、过往购买记录、人口统计信息和产品属性等数据，为用户提供个性化的产品推荐。

数据集组成

Users: 用户数据，包含以下变量：
- user_id: 用户标识符。
- country: 国家标识符。
- R: 用户的最近活跃度。
- F: 用户的购买频率。
- M: 用户在购买上花费的金额。
Products: 产品数据，包含以下变量：
- discount: 产品是否打折的布尔值。
- embedding: 通过计算机视觉技术获得的产品的平面图像嵌入。
- partnumber: 产品标识符。
- color_id: 产品颜色标识符。
- cod_section: 产品所属区域。
- family: 产品所属家族。
Train, Test: 训练和测试数据，包含以下变量：
- session_id: 会话标识符。
- date: 交互日期。
- timestamp_local: 交互时间戳。
- user_id: 用户标识符。
- country: 国家标识符。
- partnumber: 交互发生的产品标识符。
- device_type: 使用的设备类型。
- pagetype: 电子商务网站内交互发生的页面类型。
- add_to_cart: 交互是否为添加到购物车。测试数据中不提供此变量。

数据处理

需要对用户和项目数据进行清洗、过滤和归一化，移除噪声和无关信息。将原始输入（如设备类型、产品嵌入和购买历史）转换为能够突出模式和关系的结构化格式，并聚合和缩放这些特征以供机器学习模型使用。

模型要求

开发一个能够向用户推荐5个产品（partnumber）的推荐系统。需要考虑用户可能登录或未登录，以及他们可能在平台上进行的任何之前的交互。

任务概述

Task 1: 回答关于训练集、用户和产品数据集的问题，并开发两个函数。
Task 2: 开发一个函数，给定一个与训练数据集格式相同的DataFrame，返回用户标识符、会话标识符、总会话时长和添加到购物车的产品比例。
Task 3: 构建一个推荐系统，为每个会话ID推荐五个产品。

提交要求

提交一个predictions_1.json文件用于Task 1的问题，以及一个包含模型推荐的predictions_3.json文件用于Task 3。

评估标准

Task 1: 通过JSON文件评估问题的答案。
Task 2: 通过单元测试评估函数。
Task 3: 使用归一化折扣累积增益（NDCG）指标评估系统性能。

数据集下载链接

搜集汇总

数据集介绍

构建方式

Inditex Hackathon Dataset是由Inditex公司提供的，旨在促进推荐系统开发的数据集。该数据集通过整合用户行为数据、产品信息以及用户与产品的交互记录，构建了一个全面的电子商务环境。数据集的构建主要依赖于从API端点获取的用户详细数据，以及通过直接下载链接获得的产品和交互数据。数据经过预处理，包括清洗、过滤和标准化，以优化机器学习模型的输入，从而实现个性化的推荐。

使用方法

使用该数据集时，首先需要根据数据集提供的API端点和直接下载链接获取用户和产品数据。随后，对数据进行预处理，包括数据清洗、特征提取和标准化。在完成数据准备工作后，可以着手构建推荐系统模型，该模型需能够针对每个会话ID推荐五个产品。模型构建完成后，通过提交`predictions_3.json`文件来评估模型性能，该文件应包含模型对测试集的预测结果。

背景与挑战

背景概述

随着电子商务和数字零售的持续增长，个性化购物体验成为提高客户满意度和增加销量的关键。推荐系统是一种有效的实现方式，它能帮助商家根据消费者的个人偏好推荐产品。该系统会分析诸如浏览历史、过往购买记录、人口统计信息和产品属性等数据。不同于许多产品，服装选择往往受到个人风格和外部趋势的双重影响，这些因素可能会迅速变化。此外，尺码、颜色、品牌忠诚度以及场合特定需求等因素在消费者的选择中扮演着重要角色。一个设计精良的推荐模型可以增强用户参与度，提高转化率，并建立长期的客户忠诚度。Inditex Hackathon Dataset正是在这样的背景下创建，旨在为开发高效的推荐系统提供数据支持。该数据集由Inditex公司提供，是一家国际知名的时尚零售集团，其旗下拥有Zara等著名品牌。数据集的创建时间为2023年，主要研究人员或机构是参与Hackathon的各位数据科学家和工程师。

当前挑战

该数据集在构建过程中遇到了多个挑战。首先，数据集包含了大量的用户和产品信息，如何有效地处理和清洗这些数据是一个挑战。其次，由于服装领域的特殊性质，用户对产品的偏好可能会受到多种因素的影响，这为构建精确的推荐模型带来了挑战。此外，推荐系统需要考虑用户的匿名性，因为部分用户可能没有登录。最后，评价推荐系统的效果也是一个挑战，因为它需要考虑到用户实际添加到购物车的产品，而测试数据集中并未提供这一信息，需要使用如NDCG等指标进行评估。

常用场景

经典使用场景

Inditex Hackathon Dataset是一个面向推荐系统开发的竞赛数据集，其经典使用场景在于构建一个能够根据用户行为和产品特性向用户推荐产品的系统。该系统需分析用户浏览历史、购买记录、人口统计信息以及产品属性等数据，为用户提供个性化的购物体验。

解决学术问题

该数据集解决了推荐系统领域中的多个学术研究问题，如如何处理冷启动问题、如何提高推荐系统的准确性和个性化程度、如何有效利用用户和产品的交互数据等。其意义和影响在于，通过这些数据的分析和模型构建，可以显著提升用户满意度和电商平台的销售业绩。

实际应用

在实际应用中，该数据集可用于优化电商平台的商品推荐算法，通过分析用户行为和产品特性，为用户推荐更符合其兴趣和需求的产品，从而提高用户的购买意愿和平台的销售额。此外，还可以用于评估推荐系统的性能，以及优化库存管理和供应链策略。

数据集最近研究