career_change_prediction_analysis
收藏Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/harry120/career_change_prediction_analysis
下载链接
链接失效反馈官方服务:
资源简介:
职业变动预测数据集,包含38,444条记录和22个特征,来源于Kaggle。该数据集旨在研究影响个人职业变动可能性的主要因素,目标变量为是否可能变动职业的二分类变量。数据集经过严格清洗和验证,通过探索性数据分析发现了职业满意度、薪水和职业变动意向等关键预测因子。
创建时间:
2025-11-18
原始信息汇总
数据集概述
基本信息
- 数据集名称: career_change_prediction_dataset.csv
- 数据规模: 38,444行,22个特征
- 数据来源: Kaggle
- 研究问题: 预测个体转行可能性的主要因素
- 目标变量: Likely to Change Occupation(二元分类:0/1)
数据处理
数据清洗与填补
- 重复值: 0个重复行
- 缺失值: Family Influence列存在9,632个缺失值(约25%)
- 处理方式: 将缺失值填补为"Unknown"类别
数据类型与异常值检查
- 目标变量: 确认为二元变量,存在数据不平衡问题
- 序数特征: Industry Growth Rate列从文本编码转换为序数编码(1,2,3)
- 数值列: 年龄、薪资、经验等数值列无异常值
- 分类列: Field of Study、Education Level等文本列无显著拼写错误
关键发现
主要预测因素
- 工作满意度: 决定性因素,满意度≤4的个体转行可能性接近100%
- 薪资水平: 中等程度的反向预测因素
- 转行兴趣: 最强的线性预测因素
非预测因素
- 工作经验年限
- 性别
模型验证
模型性能
- 逻辑回归模型准确率: 90.28%
- F1分数: 0.92(针对转行类别)
特征重要性
- Career Change Interest(系数: +10.38)
- Salary(系数: -1.26)
- Job Satisfaction(系数: -1.11)
可视化文件
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Visualization%201%20Job%20Satisfaction%20vs.%20Career%20Change%20Likelihood.png
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Visualization%202%20Proportion%20of%20Career%20Change%20by%20Job%20Satisfaction%20%28Percentages%29.png
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Visualization%204%20Salary%20vs.%20Career%20Change%20Likelihood%20%28Box%20Plot%29.png
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Visualization%203%20Years%20of%20Experience%20vs.%20Career%20Change%20Likelihood%20%28Box%20Plot%29.png
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Visualization%205%20Proportion%20of%20Career%20Change%20by%20Gender.png
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Correlation%20Heatmap%20of%20Core%20Factors%20and%20Career%20Change%20Likelihood.png
- https://huggingface.co/datasets/harry120/career_change_prediction_analysis/resolve/main/Top10_Coefficients.jpg
搜集汇总
数据集介绍

构建方式
在职业转换预测研究领域,该数据集源自Kaggle平台,包含38,444条样本与22个特征维度。构建过程中采用严谨的数据清洗流程,针对原始数据中占比25%的“家庭影响”字段缺失值,创新性地采用“未知”类别进行填补,避免了传统众数填充可能导致的统计偏差。通过系统性的数据类型校验,对“行业增长率”等序数特征进行数值化编码,并验证了目标变量“职业转换倾向”的二元分类质量,最终形成具备高度完整性的结构化数据集。
特点
该数据集呈现出多维度职业特征与行为意向的复杂关联。核心发现揭示了职业满意度存在临界效应——当评分低于4分时个体转换职业的概率接近100%,而高于此阈值则骤降至30%。经济维度上,薪资水平与职业转换呈负相关但关联强度适中,工作年限与性别等因素则未呈现显著预测力。特别值得注意的是,职业转换意向作为直接行为指标展现出最强的预测效力,与满意度阈值共同构成了职业决策的双核心驱动机制。
使用方法
基于该数据集开展研究时,建议采用逻辑回归等可解释性模型进行建模分析。在特征工程阶段需重点处理类别型变量的独热编码,并对数值特征进行标准化处理以优化模型性能。针对目标变量的不均衡分布,应采用F1分数作为核心评估指标而非单纯依赖准确率。实践应用中可将职业满意度阈值作为关键决策规则,结合职业转换意向与薪资水平构建综合预测体系,为人力资源管理和职业咨询领域提供量化决策支持。
背景与挑战
背景概述
职业转换预测分析数据集聚焦于现代劳动力市场中的职业流动性研究,由Kaggle平台于近年发布。该数据集旨在探究影响个体职业转换决策的关键因素,涵盖38,444个样本的22维特征,核心研究问题在于识别职业转换倾向的预测因子。通过系统分析职业满意度、薪资水平及个人意向等变量,该数据集为组织行为学和人力资源管理的实证研究提供了重要基础,推动了人才保留策略与职业发展理论的交叉融合。
当前挑战
该数据集需解决职业转换预测中的类别不平衡问题,目标变量存在显著分布偏差,影响模型泛化能力。构建过程中面临家庭影响特征的大规模缺失值处理难题,原始数据约25%的缺失值需通过非模式填充策略避免统计偏差。同时,行业增长率等序数特征的文本编码转换要求保持语义连续性,而薪资与满意度等变量的非线性关系需通过阈值分析才能揭示其预测机制。
常用场景
经典使用场景
在职业发展研究领域,该数据集常被用于构建职业转换预测模型。通过分析包含38,444个样本的22维特征,研究者能够识别影响职业决策的关键因素,例如工作满意度与薪资水平对职业流动性的非线性影响。这类研究通常采用逻辑回归等分类算法,结合特征工程与模型可解释性分析,揭示职业转换行为背后的复杂机制。
解决学术问题
该数据集有效解决了职业心理学与劳动经济学中的核心问题,即如何量化主观意愿与客观条件对职业决策的协同影响。通过证实职业变更兴趣作为最强预测因子(系数+10.38),同时揭示工作满意度存在的临界阈值现象(≤4分群体转换概率近100%),为职业锚定理论提供了实证支持,推动了从线性关系到非线性交互的职业决策研究范式转变。
衍生相关工作
基于该数据集的发现,学界衍生出多项创新研究。例如结合生存分析模型追踪职业转换的时间动态性,或引入图神经网络建模行业间迁移路径。在应用层面,出现了集成实时薪酬数据的职业风险预警系统,以及融合心理学量表的跨学科职业适配度评估框架,持续拓展着职业发展研究的深度与广度。
以上内容由遇见数据集搜集并总结生成



