mailing.csv
收藏github2024-07-04 更新2024-07-05 收录
下载链接:
https://github.com/tejasOnGit/Predicting-Charitable-Donation-Responses-Using-Random-Forests
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了一个真实直接营销活动的捐赠历史和人口统计信息,具体特征包括家庭收入、首次捐赠日期、最近捐赠日期、平均捐赠金额、频率代码、捐赠金额代码、明星捐赠者标志、最后一次捐赠金额、平均捐赠金额以及结果变量(1表示在该活动中捐赠,0表示未捐赠)。
This dataset contains donation history and demographic information from a real direct marketing campaign. The specific features include household income, first donation date, most recent donation date, average donation amount, frequency code, donation amount code, star donor flag, last donation amount, average donation amount, and the outcome variable (1 denotes donation in this campaign, while 0 indicates no donation).
创建时间:
2024-07-04
原始信息汇总
预测慈善捐赠响应的随机森林模型
数据集描述
数据集 mailing.csv 包含以下特征:
- Income: 家庭收入
- Firstdate: 该个人的首次捐赠日期
- Lastdate: 该个人的最近捐赠日期
- Amount: 该个人的平均捐赠金额
- rfaf2: 频率代码
- rfaa2: 捐赠金额代码
- pepstrfl: 星标捐赠者标志
- glast: 最后一次捐赠金额
- gavr: 平均捐赠金额
- class: 目标变量,1 表示在该活动中捐赠,0 表示未捐赠
项目结构
项目包括以下步骤:
-
数据探索和准备:
- 评估训练和测试数据集中
class变量的分布,确保平衡。
- 评估训练和测试数据集中
-
模型拟合:
- 使用训练数据集拟合随机森林模型。
- 确定模型的袋外(OOB)错误率。
-
预测性能评估:
- 使用
confusionMatrix函数计算混淆矩阵和其他性能指标。 - 创建 ROC 曲线并计算训练和测试数据集的 AUC。
- 使用
-
模型检查:
- 检查随机森林模型的变量重要性得分。
- 使用模型进行个体预测并分析关键特征的影响。
-
影响分析:
- 使用个体条件期望(ICE)和部分依赖图(PDP)来理解关键特征对捐赠预测的影响。
-
总结和建议:
- 总结模型的预测性能和关键特征重要性。
- 讨论潜在的改进措施并为未来活动提供建议。
发现总结
- 初始数据探索显示
class变量在训练和测试数据集中相对平衡。 - 随机森林模型在训练和测试数据集上表现出不同的性能,评估过程中观察到潜在的过拟合。
- 影响捐赠预测的关键特征包括收入、捐赠日期(Firstdate 和 Lastdate)和过去的捐赠金额。
- 调整模型复杂度和正则化技术可能提高预测准确性。
建议
- 简化模型或使用正则化技术可能有助于缓解过拟合。
- 收集更多数据可以增强模型的泛化能力。
- 根据关键特征如收入和过去捐赠行为定制请求策略可能提高活动成功率。
使用方法
要复现分析:
- 加载数据集和所需库。
- 运行提供的代码以拟合随机森林模型并评估其性能。
- 使用模型进行预测并分析关键特征的影响。
额外内容:PDP+ICE 图表
仓库还包括一个额外部分,展示如何使用 iml 包创建部分依赖图(PDP)结合个体条件期望(ICE)曲线,以可视化特定特征对预测捐赠概率的影响。
结论
该项目提供了一个全面的随机森林模型构建和评估方法,以预测慈善捐赠响应。获得的洞察可以帮助通过更有效地定位个人来改善未来的营销活动。
搜集汇总
数据集介绍

构建方式
该数据集,名为mailing.csv,源自一个真实的直接营销活动,旨在预测个人对慈善捐赠请求的积极响应。其构建方式包括收集个人的捐赠历史和人口统计信息,如家庭收入、首次和最近捐赠日期、平均捐赠金额等。这些特征被精心选择,以捕捉潜在捐赠者的行为模式和财务状况,从而为预测模型提供丰富的信息基础。
特点
mailing.csv数据集的显著特点在于其特征的多样性和实用性。它不仅包含了捐赠者的财务信息,如收入和捐赠金额,还涵盖了捐赠行为的时间维度,如首次和最近捐赠日期。此外,数据集还引入了频率和金额代码,以及明星捐赠者的标识,这些都为模型提供了深入理解捐赠者行为的机会。
使用方法
使用该数据集进行分析时,首先需加载数据并导入必要的库。随后,通过运行提供的代码,可以拟合随机森林模型并评估其性能。利用该模型,用户可以进行预测,并分析关键特征对捐赠预测的影响。此外,数据集还支持使用个体条件期望(ICE)和部分依赖图(PDP)来进一步理解特征的影响,从而优化未来的营销策略。
背景与挑战
背景概述
mailing.csv数据集源自一个真实的直接营销活动,旨在预测个人对慈善捐赠请求的积极响应。该数据集由主要研究人员或机构创建,时间可追溯至营销活动的实施阶段。其核心研究问题在于利用随机森林模型,通过分析个体的捐赠历史和人口统计信息,预测其捐赠行为。这一研究对慈善营销领域具有重要影响力,因为它提供了一种量化和优化捐赠响应预测的方法,从而提高营销效率和捐赠收入。
当前挑战
mailing.csv数据集在构建和应用过程中面临多项挑战。首先,数据集的平衡性问题,即训练和测试数据集中`class`变量的分布不均,可能导致模型性能评估的偏差。其次,随机森林模型在训练和测试数据集上的表现差异,提示可能存在过拟合问题,需要通过调整模型复杂度和引入正则化技术来解决。此外,数据集的特征选择和解释性分析也是一个挑战,如何有效识别和解释影响捐赠预测的关键特征,是提高模型预测准确性和实用性的关键。
常用场景
经典使用场景
在慈善捐赠预测领域,`mailing.csv`数据集的经典使用场景主要集中在构建和优化随机森林模型,以预测个人对慈善捐赠请求的响应。通过分析个体的收入、捐赠历史和人口统计信息等特征,该数据集能够帮助识别潜在的捐赠者,从而提高营销活动的效率和成功率。
解决学术问题
该数据集解决了慈善捐赠预测中的关键学术问题,即如何通过机器学习模型准确预测个体的捐赠行为。通过分析数据集中的特征,如收入、捐赠日期和捐赠金额,研究人员能够构建更为精确的预测模型,从而为慈善机构提供科学依据,优化资源分配和营销策略。
衍生相关工作
基于`mailing.csv`数据集,衍生了一系列相关的经典工作,包括但不限于使用不同机器学习算法(如支持向量机、神经网络等)进行捐赠预测,以及通过特征工程和数据增强技术提升模型性能。此外,该数据集还被用于研究个体捐赠行为的心理和社会因素,为慈善捐赠领域的深入研究提供了丰富的数据支持。
以上内容由遇见数据集搜集并总结生成



