five

Synthetic-Coop-dataset

收藏
github2023-11-29 更新2024-05-31 收录
下载链接:
https://github.com/LauraPollacci/Synthetic-Coop-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
合成购物零售消费数据,使用SDV Python库生成,包括高斯Copula合成器、CTGAN合成器、TVAE合成器和Copula GAN合成器。数据集提供每月关于合成顾客(分为意大利本土人和在意大利居住的外国人)的消费信息。数据生成基于UniCoop Tirreno数据集。

Synthetic shopping and retail consumption data, generated using the SDV Python library, includes Gaussian Copula synthesizer, CTGAN synthesizer, TVAE synthesizer, and Copula GAN synthesizer. The dataset provides monthly consumption information about synthetic customers (divided into native Italians and foreigners residing in Italy). The data generation is based on the UniCoop Tirreno dataset.
创建时间:
2023-11-29
原始信息汇总

Synthetic-Coop-dataset 概述

数据集描述

  • 生成工具:使用 Synthetic Data Vault (SDV) Python 库生成。
  • 数据类型:合成购物零售消费数据。
  • 数据生成方法:包括 Gaussian Copula Synthesizer, CTGAN Synthesizer, TVAE Synthesizer, 和 Copula GAN Synthesizer。
  • 数据内容:提供每月合成顾客的消费信息,顾客分为两类:本地意大利人和外国居民。
  • 数据来源:基于 UniCoop Tirreno 数据集生成。

数据详情

  • 消费信息:包括顾客的国籍以及购物行为。
  • 一般特征:包括总量和平均指标,以及顾客购物的平均频率。
  • 特定特征:捕捉对各种超市产品的特定购物行为,产品按类别分组,如面包、面条、番茄、牛奶等。

参考文献

  • Guidotti, R., Nanni, M., Giannotti, F., Pedreschi, D., Bertoli, S., Speciale, B., & Rapoport, H. (2021). Measuring immigrants adoption of natives shopping consumption with machine learning. In Machine Learning and Knowledge Discovery in Databases. Applied Data Science and Demo Track: European Conference, ECML PKDD 2020, Ghent, Belgium, September 14–18, 2020, Proceedings, Part V (pp. 369-385). Springer International Publishing.
搜集汇总
数据集介绍
main_image_url
构建方式
Synthetic-Coop-dataset 是通过 Synthetic Data Vault (SDV) Python 库生成的合成购物零售消费数据。该数据集基于 UniCoop Tirreno 数据集,利用高斯 Copula 合成器、CTGAN 合成器、TVAE 合成器以及 Copula GAN 合成器等多种合成方法,生成了模拟意大利本地居民和外国居民的月度消费数据。数据生成过程中,考虑了消费者的购物行为特征,确保数据的多样性和真实性。
特点
该数据集包含了模拟消费者的国籍信息以及他们的购物行为特征。通用特征包括总消费量和平均消费量等指标,反映了消费者在特定时间段内的购物频率。具体特征则捕捉了消费者在超市各类商品上的购物行为,如面包、意大利面、番茄、牛奶等商品类别的消费情况。为避免数据过于稀疏,商品被归类为相似类型的商品组,从而增强了数据的实用性和可解释性。
使用方法
Synthetic-Coop-dataset 可用于研究消费者行为分析、市场趋势预测以及机器学习模型的训练与验证。研究人员可以通过分析不同国籍消费者的购物行为,探索消费模式的差异。此外,该数据集还可用于开发推荐系统或个性化营销策略,帮助零售商优化商品布局和促销活动。使用该数据集时,建议结合 UniCoop Tirreno 原始数据集进行对比分析,以验证合成数据的有效性和可靠性。
背景与挑战
背景概述
Synthetic-Coop-dataset是由Synthetic Data Vault (SDV) Python库生成的合成购物零售消费数据集,旨在模拟意大利本地居民与外国居民的消费行为。该数据集基于UniCoop Tirreno数据集,由Guidotti等研究人员在2021年提出,主要用于研究移民与本地居民在购物消费行为上的差异。通过高斯Copula合成器、CTGAN合成器、TVAE合成器以及Copula GAN合成器,数据集生成了详细的月度消费信息,涵盖了消费者在各类超市产品上的具体购物行为。这一数据集为零售消费行为分析、机器学习模型训练以及消费者行为预测提供了重要的数据支持。
当前挑战
Synthetic-Coop-dataset的构建与应用面临多重挑战。首先,在数据生成过程中,如何确保合成数据的真实性与多样性是一个关键问题。尽管使用了多种先进的合成技术,但模拟复杂的消费行为仍可能导致数据分布偏差或信息丢失。其次,数据稀疏性问题在零售消费数据中尤为突出,尤其是在细分产品类别时,如何有效聚合数据以避免稀疏性成为一大挑战。此外,数据集的应用场景主要集中在消费行为分析,如何利用这些数据构建高效的机器学习模型以准确预测消费者行为,仍需克服模型泛化能力不足、特征工程复杂等问题。
常用场景
经典使用场景
Synthetic-Coop-dataset数据集在零售消费行为分析领域具有广泛的应用。该数据集通过模拟意大利本地居民和外国居民的购物行为,提供了丰富的消费数据,涵盖了从一般购物习惯到特定商品类别的详细购买信息。研究人员可以利用这些数据深入分析不同群体的消费模式,探索文化差异对购物行为的影响。
实际应用
在实际应用中,Synthetic-Coop-dataset被广泛用于零售业的客户细分和市场策略优化。企业可以通过分析该数据集中的消费模式,识别不同客户群体的需求,从而制定更具针对性的营销策略。此外,该数据集还可用于预测未来消费趋势,帮助零售商优化库存管理和供应链效率。
衍生相关工作
基于Synthetic-Coop-dataset,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多种机器学习模型,用于预测消费者的购买行为和偏好。此外,该数据集还促进了跨文化消费行为的研究,推动了零售业中数据驱动决策的发展。这些工作不仅丰富了学术界的知识库,也为实际应用提供了有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作