five

Data Science Jobs SQL Case Study

收藏
github2024-09-25 更新2024-09-26 收录
下载链接:
https://github.com/shanto173/SQL-2024-Case_Study_01_On_data_science_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含跨国公司薪资数据,涉及不同国家、工作条件和公司特征的薪资、工作条件和公司特征。关键属性包括工作年份、经验水平、雇佣类型、职位名称、薪资、薪资货币、以美元计的薪资、员工居住地、远程工作比例、公司位置和公司规模。

This dataset contains salary data from multinational corporations, covering salary information, working conditions and company characteristics across different countries. Key attributes include work year, experience level, employment type, job title, salary, salary currency, salary denominated in USD, employee residence, remote work ratio, company location, and company size.
创建时间:
2024-09-25
原始信息汇总

Data Science Jobs SQL Case Study

数据集描述

该数据集包含跨国公司薪酬数据,涉及多个国家的薪资、工作条件和公司特征。关键属性如下:

  • work_year: 薪资支付的年份,包括:

    • 2020: 过去年份的确定金额。
    • 2024: 当前年份的估计金额。
  • experience_level: 工作年份中的经验水平,包括:

    • EN: 初级/初级。
    • MI: 中级/中级。
    • SE: 高级/专家。
    • EX: 执行级/总监。
  • employment_type: 雇佣类型,包括:

    • PT: 兼职。
    • FT: 全职。
    • CT: 合同。
    • FL: 自由职业。
  • job_title: 工作年份中的角色(例如,数据科学家、机器学习工程师)。

  • Salary: 支付的总薪资金额。

  • salary_currency: 薪资支付的货币,遵循ISO 4217货币代码标准。

  • salary_in_usd: 基于当年平均汇率转换为美元的薪资。

  • employee_residence: 员工工作年份中的主要居住国家,表示为ISO 3166国家代码。

  • remote_ratio: 远程工作比例,包括:

    • 0: 无远程工作(少于20%)。
    • 50: 部分远程工作。
    • 100: 完全远程工作(超过80%)。
  • company_location: 雇主主要办公室或合同分支所在国家,表示为ISO 3166国家代码。

  • company_size: 公司年平均员工人数,包括:

    • S: 小型公司(少于50名员工)。
    • M: 中型公司(50至250名员工)。
    • L: 大型公司(超过250名员工)。

案例研究问题及SQL查询

1. 识别提供全远程管理职位且薪资超过$90,000 USD的国家

SQL SELECT DISTINCT (t.company_location) FROM ( SELECT company_location, job_title, remote_ratio, AVG(salary_in_usd), COUNT(remote_ratio) FROM salaries GROUP BY company_location, job_title, remote_ratio HAVING remote_ratio = 100 AND job_title LIKE %manager% AND AVG(salary_in_usd) > 90000 ) t;

结果:

  • US (United States)
  • IN (India)
  • MX (Mexico)
  • AU (Australia)
  • FR (France)

2. 识别拥有最多大型公司(公司规模L)的前5个国家

SQL select company_location,count(company_size) from salaries where company_size = L and experience_level = EN group by company_location order by count(company_size) desc limit 5;

结果:

  • United States (US) – 53家大型公司
  • Germany (DE) – 10家大型公司
  • Canada (CA) – 10家大型公司
  • United Kingdom (GB) – 8家大型公司
  • India (IN) – 6家大型公司

3. 计算享受全远程工作且薪资超过$100,000 USD的员工比例

SQL select ((select count() from salaries where salary > 100000 and remote_ratio =100) /(select count() from salaries where salary > 100000) * 100) as enjoying_remote_position_with_100k_salary;

结果:

  • 32.35%的员工享受全远程工作且薪资超过$100,000 USD。

4. 识别初级职位平均薪资超过市场平均薪资的国家

SQL select t1.job_title,t2.company_location,t1.average,t2.average_per_country from ( select job_title,avg(salary_in_usd) as average from salaries where experience_level = EN GROUP BY job_title ) t1 join (select company_location,job_title,avg(salary_in_usd) as average_per_country from salaries where experience_level = EN group by company_location,job_title) t2 on t1.job_title = t2.job_title and t2.average_per_country > t1.average;

5. 识别每个职位在不同国家支付的最高平均薪资

SQL select t2.company_location,t2.job_title,t1.max_avg from (select job_title,max(avg_sal) as max_avg from (select company_location,job_title,avg(salary_in_usd) as avg_sal from salaries GROUP BY company_location,job_title order by job_title)t group by job_title order by job_title) t1 join (select company_location,job_title,avg(salary_in_usd) as avg_sal from salaries GROUP BY company_location,job_title order by job_title) t2 on t1.job_title = t2.job_title where t1.max_avg = avg_sal order by job_title;

6. 识别过去三年(2022-2024)平均薪资持续增长的国家

SQL with temp as ( select * from salaries where company_location in ( select company_location from ( select company_location,avg(salary),count(distinct work_year) from salaries where work_year >= (year(current_date()))-2 GROUP BY company_location having count(DISTINCT work_year) =3 order by company_location ) t )) select company_location, max(case when work_year = 2022 then avg_salary end) as Average_2022, max(case when work_year = 2023 then avg_salary end) as Average_2023, max(case when work_year = 2024 then avg_salary end) as Average_2024 from ( select company_location,work_year,avg(salary_in_usd) as avg_salary from temp group by company_location,work_year order by company_location) t group by company_location having Average_2024 > Average_2023 and Average_2023 > Average_2022;

7. 2021与2024年各经验水平的全远程工作比例

sql SELECT experience_level, SUM(CASE WHEN work_year = 2021 THEN remote_ratio ELSE 0 END) / COUNT() AS remote_2021, SUM(CASE WHEN work_year = 2024 THEN remote_ratio ELSE 0 END) / COUNT() AS remote_2024 FROM salaries GROUP BY experience_level;

8. 2023-2024年各经验水平和职位的平均薪资增长百分比

sql WITH salary_2023 AS ( SELECT job_title, experience_level, AVG(salary_in_usd) AS avg_salary_2023 FROM salaries WHERE work_year = 2023 GROUP BY job_title, experience_level ), salary_2024 AS ( SELECT job_title, experience_level, AVG(salary_in_usd) AS avg_salary_2024 FROM salaries WHERE work_year = 2024 GROUP BY job_title, experience_level ) SELECT s2023.job_title, s2023.experience_level, ((s2024.avg_salary_2024 - s2023.avg_salary_2023) / s2023.avg_salary_2023) * 100 AS salary_increase_percentage FROM salary_2023 s2023 JOIN salary_2024 s2024 ON s2023.job_title = s2024.job_title AND s2023.experience_level = s2024.experience_level;

9. 为经验水平实施基于角色的访问控制(RBAC)

sql -- 伪代码 CREATE ROLE entry_level_access; CREATE ROLE mid_level_access; CREATE ROLE senior_level_access; GRANT SELECT ON salaries TO entry_level_access WHERE experience_level = EN; GRANT SELECT ON salaries TO mid_level_access WHERE experience_level = MI; GRANT SELECT ON salaries TO senior_level_access WHERE experience_level = SE;

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于跨国公司提供的薪资数据,涵盖了多个国家的薪资、工作条件和公司特征。数据集包括了多个关键属性,如工作年份、经验水平、雇佣类型、职位名称、薪资、薪资货币、薪资转换为美元、员工居住地、远程工作比例、公司所在地和公司规模。这些数据通过SQL查询进行分析,以解答关于薪资趋势、远程工作和公司规模的具体问题。
特点
该数据集的特点在于其全面性和多维度性。它不仅包含了薪资的详细信息,还涵盖了工作条件和公司特征,如远程工作比例和公司规模。此外,数据集提供了不同经验水平和职位名称的薪资数据,使得分析可以深入到具体的职业和经验层次。数据集的结构化设计使得SQL查询能够高效地提取和分析所需信息。
使用方法
使用该数据集时,用户可以通过SQL查询来提取和分析特定的薪资趋势、远程工作模式和公司规模信息。例如,用户可以查询哪些国家提供全远程的管理职位且薪资超过90,000美元,或者计算享受全远程工作且薪资超过100,000美元的员工比例。此外,数据集还支持对不同经验水平和职位名称的薪资进行比较分析,帮助用户深入了解薪资市场动态。
背景与挑战
背景概述
数据科学岗位SQL案例研究数据集聚焦于跨国公司薪酬数据的分析。该数据集由一位名为Shanto的研究人员创建,旨在提供关于不同国家、工作职位和公司规模的薪酬趋势、远程工作条件及公司特征的深入洞察。核心研究问题包括识别提供高薪远程管理职位的国家、分析大型公司分布、计算高薪远程职位的员工比例等。此数据集对人力资源技术、薪酬分析及全球招聘策略等领域具有显著影响,为相关领域的研究者和从业者提供了宝贵的数据支持。
当前挑战
该数据集面临的挑战包括数据标准化问题,如不同货币的薪酬转换和不同国家的薪酬水平比较。此外,数据集需处理不同工作年份的薪酬数据,特别是2024年为估计值,这增加了数据分析的复杂性。另一个挑战是确保数据的安全性和隐私性,特别是在实施基于经验水平的角色访问控制时。最后,数据集需要解决的问题是如何准确反映远程工作趋势和薪酬增长,以便为全球招聘和薪酬策略提供可靠的决策支持。
常用场景
经典使用场景
在数据科学领域,Data Science Jobs SQL Case Study数据集的经典使用场景主要集中在薪酬分析、远程工作模式和公司规模分布的深入研究。通过SQL查询,分析师可以识别出哪些国家提供全远程的管理职位,并且薪酬超过90,000美元;或者计算出享受全远程工作且薪酬超过100,000美元的员工比例,从而揭示高薪远程职位的吸引力。此外,该数据集还支持识别哪些国家的入门级平均薪酬高于市场平均水平,帮助全球招聘机构指导候选人寻找更有利的机会。
衍生相关工作
Data Science Jobs SQL Case Study数据集的发布催生了大量相关研究和工作。例如,基于该数据集的分析,研究人员发表了多篇关于全球薪酬趋势和远程工作模式变化的论文,推动了薪酬经济学和人力资源管理领域的理论发展。此外,该数据集还被用于开发薪酬预测模型和远程工作偏好分析工具,这些工具在企业和招聘机构中得到了广泛应用。通过这些衍生工作,数据集不仅提升了学术研究的质量,还为实际应用提供了强大的数据支持。
数据集最近研究
最新研究方向
在数据科学领域,Data Science Jobs SQL Case Study数据集的最新研究方向聚焦于通过SQL查询分析跨国公司的薪资趋势、远程工作模式及公司规模分布。研究者们通过深入挖掘数据,旨在为薪酬分析师、远程工作倡导者、数据科学家等角色提供精准的业务洞察。例如,研究关注哪些国家提供全远程的管理职位且薪资超过90,000美元,以及哪些国家的大型公司数量最多。此外,研究还计算了享受全远程高薪职位的员工比例,并分析了不同经验级别和职位在2023至2024年间的平均薪资增长百分比。这些研究不仅有助于企业优化薪酬策略和远程工作政策,还为全球人才市场的竞争力分析提供了重要依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作