天猫复购预测数据集|电子商务数据集|用户行为分析数据集
收藏数据集概述
数据集名称
天猫复购预测赛技术报告
数据集描述
数据集组成
数据集由四个文件组成:
- 训练数据:包含用户、商家以及用户是否为商家的重复购买者(label)。
- 测试数据:包含用户和商家的组合,用于预测用户是否为商家的重复购买者。
- 用户画像:提供用户id对应的年龄和性别信息。
- 用户历史记录:记录用户过去六个月在不同店铺的活跃状态及点击时间等。
数据集用途
预测给定用户在特定商家的重复购买概率。
数据集特征
用户画像特征
- 年龄:平均年龄约30岁,方差较大。
- 性别:主要为女性。
用户历史记录特征
- 购买品牌信息存在缺失,其他特征无缺失。
样本分布
- 样本不均衡,非重复购买者比例远大于重复购买者。
数据集处理
数据预处理
- 年龄缺失率0.52%,性别缺失率1.5%,缺失数据以-1填补。
- 用户行为日志中购买品牌信息缺失,其他特征无缺失。
特征工程
- 合并训练数据与用户基本信息、用户行为日志。
- 生成新特征,如用户在商家处的总交互商品数、商品种类数、点击次数等。
- 分析生成特征,如用户每月使用次数、商家特征、商家与用户的综合特征。
模型应用
候选模型
- 逻辑回归
- 决策树
- 随机森林
- 梯度提升树(GBDT)
- XGBoost
模型评估
- 逻辑回归:评分0.4564939
- 决策树:评分0.5833852
- 随机森林:评分0.6252815,调参后评分0.6256826
- XGBoost:评分0.6562986
结论
XGBoost模型在测试集上表现最佳。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录