Customer Segmentation Dataset|客户细分数据集|市场分析数据集
收藏K-Means Clustering for Customer Segmentation
项目概述
本项目利用k-means聚类算法根据客户特征进行客户细分。目标是识别不同的客户群体,以定制营销策略并改进服务交付。
数据描述
数据集包含10,000名客户的合成数据,具有以下属性:
- 年龄:18-70岁。
- 年收入:30,000至100,000美元。
- 消费分数:1-100。
- 成为客户年数:1-20年。
- 总交易次数:1-50。
- 退货商品:0-10。
- 在线订单:0-100。
- 店内购买:0-50。
- 产品评分:1.0-5.0。
- 收到的投诉:0-5。
数据准备步骤包括加载、清洗和缩放数据以确保高质量分析。
方法论
数据准备
数据经过清洗、验证和预处理以进行分析。特征被缩放到统一范围(1-10)以标准化方差并优化聚类结果。
探索性数据分析(EDA)
我们进行了EDA以了解数据集的分布和汇总统计,为后续分析做准备。
聚类分析
使用以下方法确定最佳聚类数:
- 肘部法(WCSS)
- 轮廓分数
- Calinski-Harabasz分数 确定了四个聚类作为详细分析和解释的最佳选择。
聚类特征分析
每个聚类都被分析以确定其定义特征和行为,提供不同客户群体的洞察。
关键发现
分析揭示了四个聚类中客户行为和特征的显著差异:
- 聚类1:较年轻,低收入,中等消费。
- 聚类2:年轻,富裕,经济型消费。
- 聚类3:中年,中等收入和消费。
- 聚类4:较年长,高收入,高消费。
影响
这些洞察指导目标营销策略和产品开发,旨在提高客户参与度和满意度。
结论
本项目展示了k-means聚类在大型数据集中识别和分析客户群体的有效性,有助于个性化营销策略和增强客户互动。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录