five

online-shoppers-eda

收藏
Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/shiraBASH/online-shoppers-eda
下载链接
链接失效反馈
官方服务:
资源简介:
在线购物者购买意向数据集,包含了用户在电子商务网站上的会话信息,如行政、信息性和产品相关的访问时长、跳出率、退出率、页面价值等。目标变量'Revenue'表示会话是否导致了购买。数据集经过清洗和验证,包括缺失值、重复值和无效条目的检查。异常值通过四分位数范围(IQR)方法检测,但未删除,因为它们反映了用户行为真实的变化。描述性统计和可视化分析揭示了数据集的分布特征和用户购买行为的关键因素。
创建时间:
2025-11-17
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Online Shoppers Purchasing Intention Dataset
  • 主要目标:分析影响用户完成购买行为的关键因素
  • 目标变量:Revenue(表示会话是否产生购买)

数据特征

数值型特征

  • 管理类、信息类和产品相关页面的访问时长
  • 跳出率、退出率和页面价值
  • 所有比率特征取值范围为0-1

分类型特征

  • 访问者类型(VisitorType)
  • 月份(Month)
  • 是否周末(Weekend)

数据质量

  • 已进行缺失值、重复值和无效条目检查
  • 确认分类变量值的一致性和有效性
  • 使用IQR方法检测数值型特征的异常值
  • 保留异常值以反映真实用户行为变化

关键发现

访问者类型分析

  • 回头客的购买率高于新访客
  • 网站熟悉度有助于提升转化率

时间模式分析

  • 购买率在年末显著上升
  • 11月份达到峰值,显示明显的季节性效应
  • 周末会话的购买率略高于工作日

行为特征分析

  • 跳出率与退出率呈正相关关系
  • 多数用户访问时长较短,分布呈现右偏特征
  • 在产品相关页面花费更多时间的用户更可能完成购买

数据集文件

  • 主数据文件:online_shoppers_intention.csv
  • 分析文件:assignment_shira_bash.ipynb(完整Python EDA流程)
  • 数据来源:https://www.kaggle.com/datasets/imakash3011/online-shoppers-purchasing-intention-dataset
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务行为分析领域,该数据集通过系统采集超过1.2万次用户会话记录构建而成。数据源自真实电商平台的用户交互日志,涵盖页面停留时长、跳转路径等18个维度的行为特征。构建过程中采用会话级数据聚合技术,确保每个样本代表独立用户访问事件,并通过自动化流程清洗异常值和统一数据格式。
特点
该数据集呈现典型的用户行为多模态分布特征,数值型变量如页面停留时长呈现右偏分布,反映大多数用户浏览时长集中而少数深度浏览行为的存在。分类变量包含访客类型、月份等具有明确业务意义的维度,其中页面价值指标与转化概率呈现显著正相关。时序特征方面,十一月因促销活动形成明显的数据峰值,体现电子商务季节性规律。
使用方法
研究人员可借助该数据集构建用户购买意向预测模型,通过组合页面停留时长、跳出率等行为指标训练分类算法。在特征工程阶段需重点处理数值变量的尺度差异,考虑对右偏分布特征进行对数变换。验证模型时可采用分层抽样确保训练集与测试集在月份和访客类型上的分布一致性,同时注意保留原始数据中的长尾样本以维持真实场景的建模效果。
背景与挑战
背景概述
在线购物者购买意向数据集诞生于电子商务蓬勃发展的数字时代,由Kaggle平台于2018年公开,旨在解析用户行为与消费决策的内在关联。该数据集采集自真实电商平台的12330次用户会话记录,涵盖页面停留时长、跳出率等18维行为特征,核心研究在于通过机器学习模型预测用户最终购买行为。这一数据资源为消费者行为学与精准营销策略研究提供了实证基础,推动了智能推荐系统与用户画像构建领域的方法创新。
当前挑战
该数据集需解决电子商务领域用户转化率预测的核心难题,包括如何从高维稀疏行为数据中识别关键决策特征,以及平衡非均衡样本中购买与非购买会话的建模偏差。构建过程中面临多源日志数据融合的复杂性,需处理会话边界划分的模糊性,并确保行为指标如页面价值计算的合理性。此外,季节性波动与用户类型差异对模型泛化能力提出严峻考验,要求算法能适应动态变化的商业环境。
常用场景
经典使用场景
在电子商务行为分析领域,该数据集被广泛用于探索性数据分析,通过统计可视化与模式识别揭示用户会话特征与购买决策的关联。典型应用包括分析页面停留时长、跳出率等行为指标如何影响转化率,为理解消费者数字足迹提供实证基础。
实际应用
商业场景中,该数据集常被用于构建客户转化预测模型,通过实时监测页面价值与停留时长等指标,优化网站动线设计与个性化推荐系统。企业可基于分析结果调整营销策略,例如针对高跳出率页面进行界面改良,或针对回头客设计忠诚度计划以提升复购率。
衍生相关工作
基于该数据集衍生的经典研究包括结合机器学习算法构建购买意图分类器,如使用随机森林评估页面价值特征的重要性。后续工作进一步扩展至时序行为建模,通过循环神经网络捕捉用户浏览序列的动态模式,为会话感知的推荐系统开发奠定基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作