Customer Segmentation Dataset|客户细分数据集|市场分析数据集
收藏K-Means Clustering for Customer Segmentation
项目概述
本项目利用k-means聚类算法根据客户特征进行客户细分。目标是识别不同的客户群体,以定制营销策略并改进服务交付。
数据描述
数据集包含10,000名客户的合成数据,具有以下属性:
- 年龄:18-70岁。
- 年收入:30,000至100,000美元。
- 消费分数:1-100。
- 成为客户年数:1-20年。
- 总交易次数:1-50。
- 退货商品:0-10。
- 在线订单:0-100。
- 店内购买:0-50。
- 产品评分:1.0-5.0。
- 收到的投诉:0-5。
数据准备步骤包括加载、清洗和缩放数据以确保高质量分析。
方法论
数据准备
数据经过清洗、验证和预处理以进行分析。特征被缩放到统一范围(1-10)以标准化方差并优化聚类结果。
探索性数据分析(EDA)
我们进行了EDA以了解数据集的分布和汇总统计,为后续分析做准备。
聚类分析
使用以下方法确定最佳聚类数:
- 肘部法(WCSS)
- 轮廓分数
- Calinski-Harabasz分数 确定了四个聚类作为详细分析和解释的最佳选择。
聚类特征分析
每个聚类都被分析以确定其定义特征和行为,提供不同客户群体的洞察。
关键发现
分析揭示了四个聚类中客户行为和特征的显著差异:
- 聚类1:较年轻,低收入,中等消费。
- 聚类2:年轻,富裕,经济型消费。
- 聚类3:中年,中等收入和消费。
- 聚类4:较年长,高收入,高消费。
影响
这些洞察指导目标营销策略和产品开发,旨在提高客户参与度和满意度。
结论
本项目展示了k-means聚类在大型数据集中识别和分析客户群体的有效性,有助于个性化营销策略和增强客户互动。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录