天猫复购预测数据集|电子商务数据集|用户行为分析数据集

github2021-11-28 更新2024-05-31 收录

电子商务

用户行为分析

下载链接：

https://github.com/2017403603/Data_mining

下载链接

链接失效反馈

资源简介：

该数据集包含四个文件：训练数据、测试数据、用户画像和用户历史记录。训练数据提供了用户和商家信息以及用户是否为商家的重复购买者标签。用户画像数据集提供了用户的年龄和性别信息。用户历史记录提供了用户过去六个月在不同店铺的活跃状态和点击时间等信息。测试数据集用于预测用户是否为特定商家的重复购买者。

This dataset comprises four files: training data, testing data, user profiles, and user history records. The training data provides information about users and merchants, along with labels indicating whether a user is a repeat purchaser for a merchant. The user profile dataset includes details such as the age and gender of users. The user history records offer insights into users' active status and click times across various stores over the past six months. The testing dataset is utilized to predict whether a user is a repeat purchaser for a specific merchant.

创建时间：

2021-10-31

原始信息汇总

数据集概述

数据集名称

天猫复购预测赛技术报告

数据集描述

数据集组成

数据集由四个文件组成：

训练数据：包含用户、商家以及用户是否为商家的重复购买者（label）。
测试数据：包含用户和商家的组合，用于预测用户是否为商家的重复购买者。
用户画像：提供用户id对应的年龄和性别信息。
用户历史记录：记录用户过去六个月在不同店铺的活跃状态及点击时间等。

数据集用途

预测给定用户在特定商家的重复购买概率。

数据集特征

用户画像特征

年龄：平均年龄约30岁，方差较大。
性别：主要为女性。

用户历史记录特征

购买品牌信息存在缺失，其他特征无缺失。

样本分布

样本不均衡，非重复购买者比例远大于重复购买者。

数据集处理

数据预处理

年龄缺失率0.52%，性别缺失率1.5%，缺失数据以-1填补。
用户行为日志中购买品牌信息缺失，其他特征无缺失。

特征工程

合并训练数据与用户基本信息、用户行为日志。
生成新特征，如用户在商家处的总交互商品数、商品种类数、点击次数等。
分析生成特征，如用户每月使用次数、商家特征、商家与用户的综合特征。

模型应用

候选模型

逻辑回归
决策树
随机森林
梯度提升树（GBDT）
XGBoost

模型评估

逻辑回归：评分0.4564939
决策树：评分0.5833852
随机森林：评分0.6252815，调参后评分0.6256826
XGBoost：评分0.6562986

结论

XGBoost模型在测试集上表现最佳。

AI搜集汇总

数据集介绍

构建方式

天猫复购预测数据集的构建基于用户在特定促销活动中的购买行为，旨在识别潜在重复购买者。数据集包含四个主要部分：训练数据、测试数据、用户画像和用户历史记录。训练数据提供了用户与商家的交互信息以及是否为重复购买者的标签；用户画像包括用户的年龄和性别信息；用户历史记录则详细记录了用户过去六个月在不同店铺的活跃状态和点击时间。测试数据则用于预测用户是否为特定商家的重复购买者。

特点

该数据集的特点在于其多维度的用户行为数据，涵盖了用户的购买历史、点击行为、购物车操作等丰富信息。此外，用户画像中的年龄和性别信息为分析提供了额外的维度。数据集的样本分布不均衡，重复购买者比例较低，这为模型训练带来了挑战。数据集中的缺失值较少，且主要集中在用户画像的年龄和性别字段，这些缺失值被统一处理为-1，作为特征输入模型。

使用方法

使用该数据集时，首先需要将训练数据与用户画像、用户历史记录进行合并，生成包含用户特征和行为特征的综合数据集。接着，通过特征工程生成新的特征，如用户在每个商家的交互次数、点击次数、购买次数等。模型训练阶段，可以采用逻辑回归、决策树、随机森林、XGBoost等算法进行预测。最终，模型输出的概率值用于判断用户是否为重复购买者。数据集的使用方法还包括对样本不均衡问题的处理，如采用过采样或欠采样技术，以提高模型的预测性能。

背景与挑战

背景概述

天猫复购预测数据集由李航程、姚远舟、黄建辉、刘杭达等研究人员创建，旨在解决电商平台中商家在促销活动中吸引一次性消费者的问题。该数据集通过分析用户的历史购买行为、用户画像等信息，帮助商家识别潜在的重复购买者，从而优化营销策略，降低促销成本，提高投资回报率。数据集包含训练数据、测试数据、用户画像和用户历史记录四个部分，涵盖了用户的基本信息、行为日志以及商家与用户的交互数据。该数据集为电商领域的用户行为分析和预测提供了重要的数据支持，推动了精准营销和个性化推荐的研究进展。

当前挑战

天猫复购预测数据集在构建和应用过程中面临多重挑战。首先，数据集中存在大量缺失值，尤其是用户画像中的年龄和性别信息，尽管缺失比例较小，但仍对模型的预测准确性产生一定影响。其次，数据集中的样本分布极不均衡，重复购买者的比例远低于非重复购买者，这导致模型在训练过程中容易偏向多数类，影响分类效果。此外，用户行为数据的多样性和复杂性使得特征工程成为关键挑战，如何从海量日志数据中提取有效的特征以提升模型性能，是研究者需要解决的核心问题。最后，模型的泛化能力和预测精度仍需进一步提升，尤其是在面对大规模、高维度的电商数据时，如何选择合适的算法和优化策略，仍是未来研究的重点。

常用场景

经典使用场景

天猫复购预测数据集广泛应用于电子商务领域的用户行为分析，特别是在预测用户是否会再次购买某商家的商品。通过对用户历史行为、用户画像以及商家数据的综合分析，该数据集能够帮助商家识别潜在的忠诚客户，从而优化营销策略，提升客户留存率。

衍生相关工作

基于天猫复购预测数据集，许多经典的研究工作得以展开。例如，研究者开发了基于XGBoost、随机森林等机器学习算法的复购预测模型，并在实际应用中取得了显著效果。此外，该数据集还推动了电子商务领域中的用户行为分析和个性化推荐系统的进一步发展，衍生出多种创新的商业应用场景。

数据集最近研究

最新研究方向

近年来，天猫复购预测数据集在电子商务领域的研究中备受关注，尤其是在用户行为分析和精准营销方面。随着大数据和机器学习技术的快速发展，研究者们逐渐将注意力转向如何通过用户的历史行为数据、画像信息以及商家的促销活动数据，构建更加精准的复购预测模型。当前的研究热点主要集中在特征工程的优化和深度学习模型的引入上。通过挖掘用户的多维度行为特征，如点击、收藏、购物车操作等，结合时间序列分析，研究者们能够更准确地捕捉用户的购买意图。此外，集成学习方法如XGBoost和随机森林在复购预测中表现出色，成为主流模型。未来，随着图神经网络和强化学习等前沿技术的应用，复购预测的精度有望进一步提升，为商家提供更加智能化的营销决策支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface 收录