jlh/uci-shopper
收藏Hugging Face2023-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jlh/uci-shopper
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为在线购物者购买意图数据集,包含12,330个会话的特征向量,每个会话属于不同的用户,以避免特定活动、特殊日子、用户资料或时间段的影响。数据集中84.5%的会话未以购物结束,其余15.5%的会话以购物结束。数据集的特征包括管理页面访问次数、信息页面访问次数、产品相关页面访问次数、跳出率、退出率、页面价值、特殊日子、月份、操作系统、浏览器、地区、流量类型、访问者类型、是否周末以及是否产生收入等。
该数据集名为在线购物者购买意图数据集,包含12,330个会话的特征向量,每个会话属于不同的用户,以避免特定活动、特殊日子、用户资料或时间段的影响。数据集中84.5%的会话未以购物结束,其余15.5%的会话以购物结束。数据集的特征包括管理页面访问次数、信息页面访问次数、产品相关页面访问次数、跳出率、退出率、页面价值、特殊日子、月份、操作系统、浏览器、地区、流量类型、访问者类型、是否周末以及是否产生收入等。
提供机构:
jlh
原始信息汇总
数据集概述
数据集名称
- 名称: Online Shoppers Purchasing Intention Dataset
数据集特征
- 特征数量: 18
- 特征详情:
- Administrative: int64
- Administrative_Duration: float64
- Informational: int64
- Informational_Duration: float64
- ProductRelated: int64
- ProductRelated_Duration: float64
- BounceRates: float64
- ExitRates: float64
- PageValues: float64
- SpecialDay: float64
- Month: string
- OperatingSystems: int64
- Browser: int64
- Region: int64
- TrafficType: int64
- VisitorType: string
- Weekend: bool
- Revenue:
- class_label:
- 0: False
- 1: True
- class_label:
数据集划分
- 训练集:
- 名称: train
- 数据大小: 1815486 bytes
- 样本数量: 12330
数据集大小
- 下载大小: 425014 bytes
- 数据集总大小: 1815486 bytes
许可证
- 许可证: cc-by-4.0
任务类别
- 任务: 表格分类
语言
- 语言: 英语
数据集大小分类
- 大小: 10K<n<100K
搜集汇总
数据集介绍

构建方式
该数据集源自UCI机器学习库中的在线购物者购买意图数据集,经过重新上传并整理。其构建方式旨在确保数据的多样性与代表性,通过收集12,330个用户会话,涵盖了不同用户在一年内的在线购物行为。为避免特定活动、特殊日期或用户特征的影响,数据集设计时确保每个会话均来自不同的用户,从而保证了数据的中立性与广泛适用性。
特点
该数据集具有显著的特征多样性,涵盖了从用户访问的页面类型(如管理页面、信息页面、产品相关页面)到访问时长、跳出率、退出率等多维度信息。此外,数据集还包含了用户设备的操作系统、浏览器类型、地区、流量来源等详细信息,以及是否为周末访问和特殊日期的标识。这些特征共同构成了一个全面的用户行为画像,为预测用户购买意图提供了丰富的数据支持。
使用方法
该数据集适用于表格分类任务,主要用于预测在线购物者的购买意图。用户可以通过加载数据集并提取相关特征,构建分类模型,如逻辑回归、随机森林或神经网络等,以预测用户是否会进行购买。数据集的特征设计合理,适合多种机器学习算法的应用,尤其在电子商务领域,可用于优化用户购物体验、个性化推荐及营销策略的制定。
背景与挑战
背景概述
在线购物者购买意图数据集(Online Shoppers Purchasing Intention Dataset)由加州大学欧文分校(UCI)的机器学习库发布,旨在通过分析用户在网站上的行为数据,预测其最终的购买行为。该数据集包含了12,330个会话,涵盖了用户在一年内的不同时间段内的浏览行为,避免了特定活动或用户特征的偏差。主要研究人员通过收集和整理这些数据,旨在为电子商务领域提供一个有效的工具,帮助企业优化营销策略和提升用户体验。
当前挑战
该数据集面临的挑战主要集中在数据特征的复杂性和样本不平衡问题上。首先,数据集包含了多种类型的特征,如页面浏览时长、跳出率、操作系统等,这些特征的多样性增加了模型训练的难度。其次,正负样本比例严重不平衡,仅有15.5%的会话最终转化为购买行为,这使得模型在预测购买意图时容易出现偏差。此外,数据集的构建过程中还需考虑如何避免特定时间段或用户特征的偏差,确保数据的代表性和公正性。
常用场景
经典使用场景
在电子商务领域,jlh/uci-shopper数据集的经典使用场景主要集中在预测在线购物者的购买意图。通过分析用户在网站上的行为特征,如浏览页面类型、停留时间、跳出率等,研究人员可以构建分类模型,预测用户是否会完成购买。这一应用场景在个性化推荐、营销策略优化以及用户体验提升等方面具有重要价值。
实际应用
在实际应用中,jlh/uci-shopper数据集被广泛用于电子商务平台的用户行为分析和购买预测。通过构建精准的预测模型,企业可以实现个性化的产品推荐,优化广告投放策略,并提升用户转化率。此外,该数据集还可用于用户行为模式的挖掘,帮助企业识别潜在的高价值用户群体,从而制定更具针对性的营销策略。
衍生相关工作
基于jlh/uci-shopper数据集,研究者们开展了多项经典工作,涵盖了用户行为分析、购买意图预测以及个性化推荐等多个领域。例如,有研究通过该数据集验证了不同机器学习算法在购买预测任务中的性能差异,为算法选择提供了参考。此外,还有研究利用该数据集探索了用户行为特征与购买决策之间的复杂关系,为电子商务平台的运营策略提供了新的见解。
以上内容由遇见数据集搜集并总结生成



