FastDOL/wage-theft-whd-enforcement
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/FastDOL/wage-theft-whd-enforcement
下载链接
链接失效反馈官方服务:
资源简介:
该数据集汇总了40,000多个美国劳工部工资和工时司(WHD)的执法案例,按雇主级别进行统计。涵盖323,514家美国雇主,46亿美元的拖欠工资和520万受影响的员工。数据集旨在展示联邦工资盗窃执法的整体情况,帮助识别重复违规者、计算累计拖欠工资,并按地理位置或行业进行筛选。数据集包含雇主身份信息(如名称、城市、州、ZIP码、NAICS分类、母公司等)、WHD执法指标(案例数量、总拖欠工资、受影响员工数、每位员工的拖欠工资)以及OSHA交叉引用(违规次数和罚款总额)。数据来源为FastDOL,适用于调查性新闻、劳工经济学研究、ESG和供应链尽职调查等多种用途。
This dataset aggregates 40,000+ DOL Wage and Hour Division enforcement cases to the employer level. It covers 323,514 US employers, $4.6 billion in back wages, and 5.2 million affected employees. The dataset aims to provide a comprehensive view of federal wage theft enforcement, making it easy to identify repeat offenders, calculate cumulative back wages, and filter by geography or industry. It includes employer identity (name, city, state, ZIP, NAICS classification, parent company), WHD enforcement metrics (case count, total back wages owed, employees affected, back wages per employee), and OSHA cross-reference (violation count and penalty totals). The data is sourced from FastDOL and is suitable for investigative journalism, labor economics research, ESG and supply-chain due diligence, and more.
提供机构:
FastDOL
搜集汇总
数据集介绍

构建方式
该数据集源自美国劳工部工资与工时司(WHD)的WHISARD数据库,通过将350,829起个案级别的执法记录聚合至雇主层面构建而成。具体而言,数据采用归一化雇主名称、所在州及邮政编码作为实体解析依据,当多个WHD案件指向同一雇主时,将其合并为单一行,并累加案件数量、欠薪总额及受影响员工数等指标。同时,数据集还通过雇主名称、州和邮编的匹配机制,跨数据库关联了职业安全与健康管理局(OSHA)的执法记录,以呈现跨机构的监管重叠信息。
特点
该数据集涵盖了超过323,514家美国雇主,累计涉及46亿美元欠薪及520万名受影响员工,是首份在雇主层面上系统性揭示联邦工资盗窃执法全貌的公开资源。其核心特点在于识别重复违法者——约20,880家雇主拥有两起及以上WHD案件,这些雇主贡献了全部欠薪总额的22%。此外,数据集的跨机构交叉特性显著揭示了WHD与OSHA执法记录之间的可测量关联,同时按行业和州进行聚合分析,凸显了建筑、餐饮及行政废物管理等行业的集中性风险。
使用方法
用户可通过Pandas库直接加载CSV文件,使用df = pd.read_csv('wage_theft_whd_enforcement_DOL.csv', dtype={'naics_code': str})即可获取数据。建议应用场景包括:调查新闻工作者按城市、州或行业筛选重复违法者;原告律师检索被告的执法历史;劳动经济学家分析执法模式;ESG与供应链尽职调查中筛查供应商的工资合规记录;政策研究者评估各州与行业的执法强度;以及机器学习工程师将工资合规指标作为模型特征。数据还提供API接口及Kaggle镜像,便于更广泛的集成与复用。
背景与挑战
背景概述
在美国劳动力市场中,工资盗窃——即雇主未依法支付员工应得工资的行为——长期侵蚀着劳动者的基本权益,而联邦执法数据的碎片化使得系统性分析与监管评估尤为困难。在此背景下,FastDOL机构于2026年创建了WHD Wage Theft Enforcement Actions by Employer数据集,通过整合美国劳工部工资与工时司(WHD)逾35万件执法个案,将其汇聚至32.3万余家雇主层面,形成包含46亿美元欠薪与520万受影响员工的综合性数据资源。这一数据集的核心价值在于,它打破了以案件为单位的数据孤岛,使研究者能够从雇主维度系统性地识别惯犯、计算累积欠薪总额,并基于地理与行业特征进行精准筛选,为劳动经济学、监管政策评估及供应链合规筛查提供了坚实的数据基础,成为联邦执法透明度与劳工权益研究领域的重要推动力。
当前挑战
该数据集应对的领域挑战在于,工资盗窃执法数据长期以分散的个案形式存在,导致难以揭示雇主层面的重复违法模式与行业集中趋势,而这一数据集的构建过程同样遭遇多重困难。一方面,联邦各机构的数据标准不统一,WHD与OSHA的执法记录在格式与编码上存在差异,需要复杂的实体消歧技术来匹配同一雇主在不同系统中的记录,且多数雇主的NAICS行业代码与母公司关联信息存在大量缺失,增加了数据整合的误差风险。另一方面,跨机构交叉引用需依赖雇主名称、州和邮编的近似匹配,而约95%的雇主在OSHA系统中并无记录,使得交叉验证的范围受限;同时,执法案件的数量仅反映WHD已调查并记录的情况,无法涵盖未被发现的违法行为,这要求在解读数据时审慎处理其完整性局限,以防范在政策分析与建模中产生因果推断偏差。
常用场景
经典使用场景
在劳动经济学与公共政策研究领域,WHD Wage Theft Enforcement Actions by Employer数据集为理解联邦工资盗窃执法的全景图提供了宝贵资源。该数据集将美国劳工部工资与工时司超过35万起的执法案件聚合至雇主层面,涵盖32万余名雇主、46亿美元欠薪及520万名受影响员工。研究者可借助这一结构化的雇主级数据,精准识别重复违规者、计算累积欠薪总额,并依据地理区域或行业分类进行深度筛选与分析。该数据集尤其适用于揭示执法分布的不均衡性,如重复违规雇主虽仅占总数6.4%,却贡献了约22%的欠薪金额,凸显出工资盗窃执法的集中化特征。
实际应用
在实际应用层面,该数据集为多元化的非学术场景提供了数据基础。调查记者可依据城市、州或行业筛选出重复发生工资盗窃行为的雇主,用于深度报道与社会监督。原告律师能够借助数据集检索被告的执法历史记录,为劳工权益诉讼提供证据支撑。在企业社会责任与供应链尽职调查领域,企业可筛查供应商的工资合规历史,以降低法律与声誉风险。政策分析者能够量化跨州与跨行业的执法强度差异,为优化监管资源配置和推动立法改革提供数据驱动建议。此外,该数据集还可作为机器学习模型的特征输入,用于预测企业违规概率,实现智能化的合规风险预警。
衍生相关工作
该数据集的发布催生了一系列重要的衍生研究与工具开发。FastDOL平台基于此数据集进一步聚合了来自15个联邦机构的执法记录,构建了具备实体解析能力的雇主合规画像查询系统,并提供了免费API接口供研究者与公众使用。在学术领域,后续研究利用该数据探讨了工资执法与职场安全合规之间的跨机构关联机制,推动了监管互操作性的理论发展。数据驱动的政策分析工作也相继涌现,例如通过地理与行业维度对执法分布进行空间计量分析,识别出执法盲区与高密度区域。此外,该数据集还启发了面向劳动市场的机器学习特征工程新范式,将工资合规记录作为模型输入,用于预测企业其他领域的合规表现或风险评估。
以上内容由遇见数据集搜集并总结生成



