HR Data|人力资源管理数据集|员工分析数据集
收藏HR Employee Distribution Report Dashboard
数据使用
- 数据:包含22000多行的人力资源数据,时间范围从2000年到2020年。
- 数据清洗与分析:使用MySQL和Jupyter Notebook(sql magic)进行数据清洗和分析。
- 数据可视化:使用PowerBI进行数据可视化。
问题
- 公司员工的性别分布情况如何?
- 公司员工的种族/民族分布情况如何?
- 公司员工的年龄分布情况如何?
- 员工在总部工作与远程工作的分布情况如何?
- 被终止雇佣的员工的平均雇佣时长是多少?
- 性别分布在不同部门和职位中的变化情况如何?
- 公司内职位的分布情况如何?
- 哪个部门的离职率最高?
- 员工在各州的地理分布情况如何?
- 基于雇佣和终止日期,公司员工数量随时间的变化情况如何?
- 每个部门的任期分布情况如何?
发现总结
- 男性员工数量较多。
- 白人种族占主导地位,而夏威夷原住民和美国印第安人最少。
- 最年轻的员工22岁,最年长的员工59岁。
- 创建了5个年龄组(18-24, 25-34, 35-44, 45-54, 55-64),其中35-44岁组员工数量最多,18-24岁组最少。
- 大部分员工在总部工作,远程工作员工较少。
- 被终止雇佣的员工的平均雇佣时长约为8年。
- 性别分布在各部门中相对平衡,但总体上男性员工多于女性员工。
- 审计部门的离职率最高,市场营销和业务发展部门的离职率最低。
- 大部分员工来自俄亥俄州。
- 员工数量逐年增加。
- 各部门的平均任期约为9年,销售部门任期最长,法律、支持、产品管理部门任期最短。
局限性
- 部分记录包含负年龄,这些记录在查询时被排除(967条记录)。使用的年龄为18岁及以上。
- 部分终止日期在未来,这些记录未被包含在分析中(1599条记录)。仅使用小于或等于当前日期的终止日期。

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录