social-influence-on-shopping

github2022-12-20 更新2024-05-31 收录

下载链接：

https://github.com/Joeeel17/Social-Influence-on-Businesses

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练模型，以分析社交媒体对商业的影响，特别是在选择最合适的社交媒体平台方面。数据集来源于美国的一项调查，用于训练聚类模型以及其他算法。

This dataset is utilized for training models to analyze the impact of social media on business, particularly in selecting the most suitable social media platforms. The dataset originates from a survey conducted in the United States and is employed for training clustering models as well as other algorithms.

创建时间：

2022-05-15

原始信息汇总

数据集概述

数据集名称

训练数据集：Social Influence on Shopping
测试数据集：fyp-questionnaire.csv

数据集来源

训练数据集：通过美国的一项调查收集。
测试数据集：在马来西亚进行的数据收集。

数据集内容

训练数据集：用于训练聚类模型。
测试数据集：包含四个主要人口统计类别，即性别、年龄、位置和就业状况。

数据处理技术

Hampel Filter：用于检测可能的异常值和极端异常值。
Rosners Test：用于确认异常值。
Winsorization：作为消除异常值的替代方法，用平均值替换异常值。
Log Transformation：由于数据集左偏，选择此转换方法。
Min-Max Scaling：用于缩放值，但由于不影响偏度，未被采用。
Pearsons Chi-Squared Test：用于测量分类变量之间的关联。

机器学习模型

Silhouette Method：用于确定测试数据集上的最佳聚类数。
Gower Distance：用于PAM聚类和K-Prototypes。
Levenshtein Distance：用于Levenshtein模型。
PAM Clustering：使用Gower距离，效果良好。
K-Prototype：K-Means的改进版本，适用于分类/混合数据集。
Levenshtein Model：基于字符串距离矩阵的聚类。

模型评估

Silhouette Width：用于验证聚类准确性，其中Partition Around Medoids (PAM)模型平均轮廓宽度最佳，为0.44。

研究结果

在马来西亚，主要社交媒体平台（Facebook, Instagram, Snapchat, Twitter）对商业的影响通过三种聚类机器学习技术进行了研究。
集群3在三个人口统计类别中是最主要的，而集群1和2在“工作状态”数据框架中是共同领先的。
在“性别”、“位置”和“年龄”组中，集群3主要由一个主要的社交媒体平台“Twitter”组成，其次是“Snapchat”。
在“工作状态”人口统计中，最有影响力的社交媒体平台是“Instagram”，其次是“Facebook”。
在“工作状态”人口统计中，发现了一个有趣的隐藏模式，即整个集群仅由回答“Twitter”的受访者组成。

可视化与应用

研究结果通过Laravel 8和PHP开发的仪表板进行展示，用户可以选择特定的集群来查看相关发现和数据分析。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对社交媒体对商业影响的深入研究，通过在美国进行的一项调查收集了训练数据，并结合马来西亚的本地数据进行测试。数据集的构建过程包括数据收集、分类和预处理，其中数据被分类为性别、年龄、地点和就业状况四个主要人口统计类别。预处理阶段采用了多种技术，如Hampel滤波器、Rosner测试、Winsorization和Log变换，以确保数据的质量和适用性。

使用方法

该数据集可用于分析不同社交媒体平台在不同人口统计群体中的影响力，适合用于聚类分析和机器学习模型的训练与测试。用户可以通过应用不同的机器学习算法，如PAM聚类、K-Prototype和Levenshtein模型，来探索数据中的模式和关联。此外，数据集还支持通过Laravel 8和PHP创建的仪表板进行可视化分析，使用户能够直观地理解社交媒体平台在不同人群中的流行度和影响力。

背景与挑战

背景概述

社交影响购物数据集（social-influence-on-shopping）由主要研究人员在马来西亚进行的一项研究中创建，旨在探讨社交媒体平台（如Facebook、Instagram、Snapchat和Twitter）对马来西亚企业的影响。该研究基于对美国的一项调查数据进行训练，并通过在马来西亚收集的测试数据进行验证，以确保结果适用于当地文化和环境。数据集的核心研究问题在于通过聚类分析揭示不同社交媒体平台在不同人口统计特征下的影响力模式，从而帮助企业更好地选择适合其目标客户的社交媒体平台。该数据集的创建不仅为社交媒体营销策略提供了实证支持，还为机器学习技术在商业决策中的应用提供了新的视角。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，数据集的构建过程中需要处理来自不同文化背景的数据，这要求研究人员在数据预处理阶段进行细致的分析和调整，以确保模型的适用性和准确性。其次，社交媒体平台的影响力分析涉及复杂的聚类技术，如PAM聚类、K-Prototype和Levenshtein模型，这些技术在处理混合数据类型时面临挑战，尤其是在处理异常值和数据不平衡问题时。此外，如何有效地将研究结果转化为实际的商业决策工具，如通过仪表盘展示，也是一个重要的挑战。

常用场景

经典使用场景

在社交影响购物行为的背景下，该数据集的经典使用场景主要集中在通过聚类分析来揭示不同社交媒体平台（如Facebook、Instagram、Snapchat和Twitter）对马来西亚企业的影响。通过分析性别、年龄、地理位置和就业状况等人口统计数据，研究能够识别出不同社交媒体平台在特定群体中的受欢迎程度和影响力，从而帮助企业优化其社交媒体策略。

解决学术问题

该数据集解决了在社交媒体营销领域中，如何有效利用机器学习技术来分析和预测不同社交媒体平台对特定目标群体的影响这一学术问题。通过聚类分析，研究揭示了社交媒体平台与人口统计特征之间的关联性，为企业在选择合适的社交媒体平台时提供了科学依据，从而提升了营销策略的精准性和有效性。

实际应用

在实际应用中，该数据集为企业提供了关于如何根据目标客户的人口统计特征选择最有效的社交媒体平台的指导。例如，企业可以根据数据分析结果，针对特定年龄段或地理位置的用户群体，选择最受欢迎的社交媒体平台进行营销活动，从而提高品牌曝光率和用户参与度。

数据集最近研究