OJ

github2019-02-18 更新2024-05-31 收录

下载链接：

https://github.com/swatisingh0107/OJDatasetAnalysis

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含1070次购买记录，记录了顾客购买Citrus Hill或Minute Maid Orange Juice的情况，以及顾客和产品的多种特征。

The dataset comprises 1,070 purchase records, documenting customer transactions involving Citrus Hill or Minute Maid Orange Juice, along with various characteristics of both the customers and the products.

创建时间：

2018-11-02

原始信息汇总

数据集概述

数据集名称

Orange Juice Case Study

数据集内容

包含1070次购买记录，顾客购买的产品为Citrus Hill或Minute Maid Orange Juice。数据集记录了顾客和产品的多种特征。

数据集属性

属性	描述
Purchase	分类变量，CH代表Citrus Hill，MM代表Minute Maid Orange Juice
WeekofPurchase	购买周
StoreID	商店ID
PriceCH	Citrus Hill的价格
PriceMM	Minute Maid Orange Juice的价格
DiscCH	Citrus Hill的折扣
DiscMM	Minute Maid Orange Juice的折扣
SpecialCH	Citrus Hill的特殊优惠指示符
SpecialMM	Minute Maid Orange Juice的特殊优惠指示符
LoyalCH	Citrus Hill的顾客品牌忠诚度
SalePriceMM	Minute Maid Orange Juice的售价
SalePriceCH	Citrus Hill的售价
PriceDiff	Minute Maid Orange Juice与Citrus Hill的售价差
Store7	分类变量，是否在Store 7购买，Yes或No
PctDiscMM	Minute Maid Orange Juice的折扣百分比
PctDiscCH	Citrus Hill的折扣百分比
ListPriceDiff	Minute Maid Orange Juice与Citrus Hill的标价差
STORE	销售发生的5个可能商店之一

数据集目标

确定影响Minute Maid Orange Juice销售的关键变量，并基于此制定策略以提升其销售。
开发一个预测模型，预测顾客购买Minute Maid Orange Juice的概率。

数据集分析方法

探索性数据分析（EDA）
机器学习算法：Logistic回归和支持向量机（SVM）

数据集处理

维度减少：移除冗余或重复信息，如Store和Store7。
变量转换：将某些数值变量转换为分类变量。

特征选择

通过相关性分析和变量重要性评估，选择关键特征。
使用Learning Vector Quantization（LVQ）模型和Random Forest Recursive Feature Elimination（RFE）进行特征排序和选择。

模型构建

使用Logistic回归和SVM模型进行预测分析。
比较不同模型的预测准确性和特征重要性。

模型评估

通过混淆矩阵和准确率评估模型性能。
确定最佳模型为SVM Radial，其敏感性最高，达到89.16%。

结论

影响Minute Maid Orange Juice销售的关键因素包括PriceDiff、StoreID1和LoyalCH。
模型预测准确率达到82%，95%置信区间为76.96%至86.49%。

搜集汇总

数据集介绍

构建方式

OJ数据集的构建基于1070次购买记录，涉及客户是否购买了Citrus Hill或Minute Maid橙汁，并记录了客户和产品的多种特征。数据集通过收集购买行为、商店信息、价格、折扣、促销情况以及品牌忠诚度等信息，构建了一个适用于机器学习模型训练的数据集。

特点

该数据集的特点在于包含了丰富的客户购买行为特征，如购买时间、商店ID、产品价格、折扣信息等，这些都是影响购买决策的重要因素。同时，数据集还标注了客户是否购买了特定品牌的产品，为分类任务提供了明确的目标变量。数据集经过仔细的清洗和预处理，保证了数据的质量和可用性。

使用方法

使用OJ数据集时，首先需要对数据进行加载和探索性分析，以理解数据的分布和特征。随后，可以利用数据集提供的特征进行机器学习模型的训练，如逻辑回归和支持向量机等。在模型训练后，还需通过测试集评估模型的准确性，并通过混淆矩阵分析模型的性能。

背景与挑战

背景概述

OJ数据集是一个包含1070次购买的记录，涉及客户购买的是Citrus Hill还是Minute Maid橙汁。该数据集记录了客户和产品的多种特征。该数据集的创建旨在帮助商店连锁提高总体收入，假设Minute Maid的利润更高。研究人员希望通过分析变量对Minute Maid销售的影响，并建立一个预测模型来预测客户购买Minute Maid的概率。数据集创建于近期，由Swati Singh主导分析，并在GitHub上共享了分析过程和研究结果。

当前挑战

OJ数据集在研究领域问题上的挑战主要包括如何准确识别影响Minute Maid销售的关键变量，并建立一个有效的预测模型。在构建过程中，研究人员面临的挑战包括处理数据中的缺失值、处理类别型和数值型数据、识别和消除共线性问题，以及选择和优化合适的机器学习算法以提高模型的预测准确性。

常用场景

经典使用场景

OJ数据集广泛应用于市场分析及消费者购买行为预测领域，其经典使用场景在于分析影响消费者选择不同品牌橙汁的因素，进而帮助企业制定针对性的营销策略。

衍生相关工作

基于OJ数据集，研究者衍生出了一系列相关工作，如利用机器学习算法进行特征选择和模型构建，以及比较不同预测模型的性能，这些研究进一步拓展了数据集的应用范围，推动了相关领域的发展。

数据集最近研究