datapizza-ai-lab/salaries
收藏Hugging Face2026-05-03 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/datapizza-ai-lab/salaries
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于意大利科技行业薪资的数据集,通过匿名调查收集,包含了科技工作者的薪资和专业信息。数据集中包含多个特征字段,如职位名称、工作经验、教育水平、公司行业、公司规模、省份、工作模式、使用的技术、薪资等。此外,还包含了一些可选字段,如年龄、性别、AI使用频率等。数据集还提供了分类值的详细说明,如教育类型、公司规模、工作模式、性别、公司行业、AI技术、AI任务类型、AI更新来源和编辑器等。
A crowd-sourced dataset of salaries from tech workers in Italy, collected via anonymous survey. This dataset contains self-reported salary and professional information from technology workers across Italy. Data is collected through an anonymous survey and updated weekly.
提供机构:
datapizza-ai-lab
搜集汇总
数据集介绍

构建方式
该数据集由意大利科技社区Datapizza通过匿名问卷形式众包采集,涵盖了意大利境内技术从业者的薪酬与职业信息。数据收集持续进行并每周更新,受访者自愿提交包含职位、经验、教育背景、公司行业与规模、省份、工作模式、技术栈及年薪等核心字段的自我报告。值得注意的是,2024年11月6日之前提交的数据仅包含部分信息,因初始版本问卷未收集如教育类型、年龄、AI使用频率等字段。此后问卷逐步完善,新增了人工智能工具使用、技术偏好、代码编辑器、评分及有效性验证等多元维度,最终形成结构清晰且可扩展的数据集。
特点
该数据集的核心亮点在于其多维度的字段设计与意大利本土化的标签体系。它不仅仅记录薪酬与职位,还深入捕捉了从业者的技术生态全貌,包括使用的AI工具、AI任务类型、获取AI资讯的渠道以及向往学习的技术栈。分类变量如教育类型、公司规模、工作模式、性别及行业代码均采用标准化且细粒度的枚举值,便于跨类别分析。数据集中包含有效性验证标志与提交时间戳,保证了数据质量与时效性。总体而言,这是一份兼具广度与细度的区域性开源薪资数据集,为意大利科技劳动力市场提供了稀缺的量化视角。
使用方法
用户可通过Hugging Face的`datasets`库便捷加载该数据集,调用`load_dataset("datapizza-ai-lab/salaries")`即可获取训练集,并可无缝转换为Pandas DataFrame进行深入分析。典型应用包括按职位、地区或工作模式筛选子集,计算不同维度的平均薪酬,或探索AI使用频率与薪酬之间的关联。研究人员和数据分析师亦可基于类别字段进行分组聚合与可视化,挖掘意大利科技行业的薪酬分布规律与技术趋势。数据采用CC-BY-NC-4.0许可,仅限非商业用途并需注明出处,引用时推荐使用提供的BibTeX条目。
背景与挑战
背景概述
在科技行业薪酬透明度日益受到关注的背景下,Datapizza团队于2024年创建了该数据集,旨在系统性地收集意大利科技工作者的薪酬与职业信息。该数据集由Datapizza实验室通过匿名问卷方式采集,覆盖从软件开发者到数据科学家等多元岗位,包含工作经验、教育背景、企业规模、工作模式及AI工具使用频率等丰富维度,为研究意大利科技劳动力市场的薪酬结构、技能需求与AI技术渗透率提供了宝贵的实证基础。作为意大利首个大规模、众包式的科技薪酬开放数据集,其在推动区域薪酬透明化、支持劳动经济学分析与职业规划研究方面具有开创性影响力。
当前挑战
该数据集着力应对两大核心挑战。在领域问题层面,意大利科技行业长期缺乏系统性的薪酬公开数据,导致从业者难以进行公平的薪资比较,企业亦难精准对标市场水平,数据集通过匿名众包方式填补了这一信息鸿沟。在构建过程中,数据质量控制成为首要挑战,因依赖自报数据,需设计严格的验证机制(如valid字段)以过滤异常值;此外,2024年11月6日前提交的问卷因版本迭代缺失部分字段,造成历史数据的不一致性,需通过版本化标注与完整性筛选来保障分析可靠性,同时平衡数据量增长与噪声管理之间的矛盾。
常用场景
经典使用场景
在劳动经济学与数据科学的交叉领域中,薪资数据集常被用于构建薪酬预测模型与职业发展分析框架。该数据集汇聚了意大利技术从业者自报的薪资、工作年限、教育背景、地理位置及技术栈等多维度信息,为研究者提供了探索技术劳动力市场内部薪资结构的宝贵素材。经典应用包括利用线性回归、随机森林或梯度提升树等机器学习算法,基于工作经验、教育水平、行业属性与工作模式等特征预测年薪总额,从而揭示不同变量对薪酬的边际贡献。
解决学术问题
该数据集有效应对了意大利技术劳动力市场中薪酬透明度不足与区域异质性难以量化等学术挑战。传统薪资调查常受限于样本代表性或数据粒度粗糙,而该数据集通过众包方式收集了涵盖23个行业类别、多样化公司规模以及远程/混合/现场工作模式的详尽记录。研究者能够据此检验人力资本理论(如教育回报率)、补偿性工资差异假说(如远程工作对薪资的影响)以及性别薪资差距等经典命题,为理解欧盟南部技术市场的薪酬决定机制提供了实证基础。
衍生相关工作
该数据集催生了多项富有启发性的衍生研究工作。实务中,分析师已将薪资数据与技术偏好字段结合,探究AI工具使用频率(如GitHub Copilot与ChatGPT的采纳率)与薪资水平之间的关联,从而评估技术升级对劳动报酬的影响。学术界则围绕该数据构建了交互式可视化仪表盘,用于展示意大利技术人员的薪酬地理分布与行业排名。更进一步的,有研究者利用其中关于admiredTechnologies(期望学习的技术)字段,预测技能迁移趋势以及新兴技术岗位的潜在薪资溢价,为动态劳动力市场分析提供了新颖视角。
以上内容由遇见数据集搜集并总结生成



