Online Retail Dataset|在线零售数据集|数据分析数据集
收藏github2023-03-08 更新2024-05-31 收录
下载链接:
https://github.com/Featuretools/D3M-Online-Retail-Dataset
下载链接
链接失效反馈资源简介:
该数据集用于处理和转换在线零售数据,通过Featuretools工具生成特征矩阵和D3M数据模式。
This dataset is utilized for processing and transforming online retail data, generating feature matrices and D3M data schemas through the Featuretools tool.
创建时间:
2017-09-09
原始信息汇总
数据集概述
数据集处理脚本
- 脚本名称:
dfs_d3m.py - 功能:将多表数据集转换为特征矩阵和D3M数据模式。
使用方法
-
安装Python 2.7。
-
安装Python依赖库:
-
可选:修改
dfs_d3m.py中的LABELS_PATH,指向data/purchase_sum_4_weeks_first_100.csv以加速运行(生成较小数据集)。 -
运行命令:
python dfs_d3m.py input OUTPUT_PATH
OUTPUT_PATH:清理后的数据集创建目录。
输出文件
data/dataSchema.jsondata/trainData.csvdata/trainTargets.csvdata/testData.csvdata/testTargets.csv
未来改进
- 当前硬编码处理在线零售数据集,未来将支持任意数据集。
- 目前代码将数据分为测试和训练集(因为在线零售数据集是一个整体),未来将支持单独的测试数据并进行转换。
AI搜集汇总
数据集介绍

构建方式
Online Retail Dataset的构建过程基于多表数据集的处理,通过Python脚本`dfs_d3m.py`将原始数据转换为特征矩阵和D3M数据模式。该脚本首先读取多表数据,随后通过特征工程工具Featuretools进行特征提取,最终生成训练和测试数据集。这一过程不仅确保了数据的结构化和标准化,还为后续的机器学习任务提供了高质量的数据基础。
特点
Online Retail Dataset的特点在于其多表数据结构和丰富的特征信息。数据集涵盖了在线零售业务中的交易记录、客户信息和产品详情等多维度数据,能够支持复杂的特征工程和模型训练。此外,数据集还提供了清晰的数据模式(D3M Schema),便于用户理解和使用。其灵活的数据分割方式(训练集和测试集)也为模型验证和性能评估提供了便利。
使用方法
使用Online Retail Dataset时,用户需安装Python 2.7及相关依赖库(如Featuretools和scikit-learn)。通过运行`dfs_d3m.py`脚本,用户可指定输入路径和输出路径,生成包含特征矩阵和目标变量的训练和测试数据集。脚本还支持自定义标签路径以优化运行效率。生成的数据可直接用于机器学习模型的训练和评估,为在线零售领域的预测和分析任务提供支持。
背景与挑战
背景概述
Online Retail Dataset 是一个广泛应用于电子商务和零售分析领域的数据集,最早由UCI机器学习库发布。该数据集记录了英国一家在线零售公司在2010年至2011年期间的交易数据,涵盖了客户购买行为、订单详情以及退货信息等。其主要研究人员和机构通过该数据集探索了客户细分、购买模式预测以及市场篮子分析等核心问题。该数据集为电子商务领域的研究提供了丰富的数据支持,推动了基于机器学习的零售行为分析和预测模型的发展。
当前挑战
Online Retail Dataset 在解决电子商务领域的客户行为分析和预测问题时,面临诸多挑战。首先,数据集中存在大量缺失值和异常值,例如客户ID和产品描述的缺失,这增加了数据清洗和预处理的难度。其次,数据的时间跨度较短,且主要集中在英国市场,限制了模型的泛化能力。此外,构建过程中,如何有效处理多表数据并将其转换为适合机器学习模型输入的特征矩阵,也是一个技术难点。未来的改进方向包括支持任意数据集的输入以及更灵活的数据分割方法,以提升模型的适用性和准确性。
常用场景
经典使用场景
Online Retail Dataset 是一个经典的电子商务数据集,广泛应用于客户行为分析和市场篮子分析。该数据集包含了大量的在线零售交易记录,涵盖了客户购买的商品、数量、价格以及交易时间等信息。研究人员通常利用该数据集进行客户细分、购买模式识别以及销售预测等任务,从而帮助企业优化营销策略和库存管理。
实际应用
在实际应用中,Online Retail Dataset 被广泛用于电子商务平台的个性化推荐系统和动态定价策略中。通过对客户购买历史的分析,企业能够为每位客户提供定制化的商品推荐,从而提高客户满意度和销售额。此外,该数据集还被用于优化供应链管理,帮助企业预测需求波动,减少库存积压和缺货风险。
衍生相关工作
基于 Online Retail Dataset,许多经典的研究工作得以展开。例如,研究人员开发了基于机器学习的客户流失预测模型,帮助企业提前识别潜在流失客户并采取干预措施。此外,该数据集还催生了多种时间序列分析算法,用于预测未来销售趋势。这些衍生工作不仅丰富了数据科学领域的研究成果,还为电子商务行业的智能化转型提供了技术支持。
以上内容由AI搜集并总结生成



