天猫复购预测数据集

github2021-11-28 更新2024-05-31 收录

下载链接：

https://github.com/2017403603/Data_mining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个文件：训练数据、测试数据、用户画像和用户历史记录。训练数据提供了用户和商家信息以及用户是否为商家的重复购买者标签。用户画像数据集提供了用户的年龄和性别信息。用户历史记录提供了用户过去六个月在不同店铺的活跃状态和点击时间等信息。测试数据集用于预测用户是否为特定商家的重复购买者。

This dataset comprises four files: training data, testing data, user profiles, and user history records. The training data provides information about users and merchants, along with labels indicating whether a user is a repeat purchaser for a merchant. The user profile dataset includes details such as the age and gender of users. The user history records offer insights into users' active status and click times across various stores over the past six months. The testing dataset is utilized to predict whether a user is a repeat purchaser for a specific merchant.

创建时间：

2021-10-31

原始信息汇总

数据集概述

数据集名称

天猫复购预测赛技术报告

数据集描述

数据集组成

数据集由四个文件组成：

训练数据：包含用户、商家以及用户是否为商家的重复购买者（label）。
测试数据：包含用户和商家的组合，用于预测用户是否为商家的重复购买者。
用户画像：提供用户id对应的年龄和性别信息。
用户历史记录：记录用户过去六个月在不同店铺的活跃状态及点击时间等。

数据集用途

预测给定用户在特定商家的重复购买概率。

数据集特征

用户画像特征

年龄：平均年龄约30岁，方差较大。
性别：主要为女性。

用户历史记录特征

购买品牌信息存在缺失，其他特征无缺失。

样本分布

样本不均衡，非重复购买者比例远大于重复购买者。

数据集处理

数据预处理

年龄缺失率0.52%，性别缺失率1.5%，缺失数据以-1填补。
用户行为日志中购买品牌信息缺失，其他特征无缺失。

特征工程

合并训练数据与用户基本信息、用户行为日志。
生成新特征，如用户在商家处的总交互商品数、商品种类数、点击次数等。
分析生成特征，如用户每月使用次数、商家特征、商家与用户的综合特征。

模型应用

候选模型

逻辑回归
决策树
随机森林
梯度提升树（GBDT）
XGBoost

模型评估

逻辑回归：评分0.4564939
决策树：评分0.5833852
随机森林：评分0.6252815，调参后评分0.6256826
XGBoost：评分0.6562986

结论

XGBoost模型在测试集上表现最佳。

搜集汇总

数据集介绍

构建方式

天猫复购预测数据集的构建基于用户在特定促销活动中的购买行为，旨在识别潜在重复购买者。数据集包含四个主要部分：训练数据、测试数据、用户画像和用户历史记录。训练数据提供了用户与商家的交互信息以及是否为重复购买者的标签；用户画像包括用户的年龄和性别信息；用户历史记录则详细记录了用户过去六个月在不同店铺的活跃状态和点击时间。测试数据则用于预测用户是否为特定商家的重复购买者。

特点

该数据集的特点在于其多维度的用户行为数据，涵盖了用户的购买历史、点击行为、购物车操作等丰富信息。此外，用户画像中的年龄和性别信息为分析提供了额外的维度。数据集的样本分布不均衡，重复购买者比例较低，这为模型训练带来了挑战。数据集中的缺失值较少，且主要集中在用户画像的年龄和性别字段，这些缺失值被统一处理为-1，作为特征输入模型。

使用方法

使用该数据集时，首先需要将训练数据与用户画像、用户历史记录进行合并，生成包含用户特征和行为特征的综合数据集。接着，通过特征工程生成新的特征，如用户在每个商家的交互次数、点击次数、购买次数等。模型训练阶段，可以采用逻辑回归、决策树、随机森林、XGBoost等算法进行预测。最终，模型输出的概率值用于判断用户是否为重复购买者。数据集的使用方法还包括对样本不均衡问题的处理，如采用过采样或欠采样技术，以提高模型的预测性能。

背景与挑战

背景概述

天猫复购预测数据集由李航程、姚远舟、黄建辉、刘杭达等研究人员创建，旨在解决电商平台中商家在促销活动中吸引一次性消费者的问题。该数据集通过分析用户的历史购买行为、用户画像等信息，帮助商家识别潜在的重复购买者，从而优化营销策略，降低促销成本，提高投资回报率。数据集包含训练数据、测试数据、用户画像和用户历史记录四个部分，涵盖了用户的基本信息、行为日志以及商家与用户的交互数据。该数据集为电商领域的用户行为分析和预测提供了重要的数据支持，推动了精准营销和个性化推荐的研究进展。

当前挑战

天猫复购预测数据集在构建和应用过程中面临多重挑战。首先，数据集中存在大量缺失值，尤其是用户画像中的年龄和性别信息，尽管缺失比例较小，但仍对模型的预测准确性产生一定影响。其次，数据集中的样本分布极不均衡，重复购买者的比例远低于非重复购买者，这导致模型在训练过程中容易偏向多数类，影响分类效果。此外，用户行为数据的多样性和复杂性使得特征工程成为关键挑战，如何从海量日志数据中提取有效的特征以提升模型性能，是研究者需要解决的核心问题。最后，模型的泛化能力和预测精度仍需进一步提升，尤其是在面对大规模、高维度的电商数据时，如何选择合适的算法和优化策略，仍是未来研究的重点。

常用场景

经典使用场景

天猫复购预测数据集广泛应用于电子商务领域的用户行为分析，特别是在预测用户是否会再次购买某商家的商品。通过对用户历史行为、用户画像以及商家数据的综合分析，该数据集能够帮助商家识别潜在的忠诚客户，从而优化营销策略，提升客户留存率。

衍生相关工作

基于天猫复购预测数据集，许多经典的研究工作得以展开。例如，研究者开发了基于XGBoost、随机森林等机器学习算法的复购预测模型，并在实际应用中取得了显著效果。此外，该数据集还推动了电子商务领域中的用户行为分析和个性化推荐系统的进一步发展，衍生出多种创新的商业应用场景。

数据集最近研究