FastDOLz/cross-agency-federal-violations

Name: FastDOLz/cross-agency-federal-violations
Creator: FastDOLz
Published: 2026-04-30 18:04:46
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/FastDOLz/cross-agency-federal-violations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含76,310个美国雇主的联邦执法记录，这些记录来自两个或更多机构，每个雇主的数据被整合为一行。目的是揭示跨机构的模式，这些模式在单一来源的搜索中可能会被忽略。每行数据汇总了雇主在OSHA（工作场所安全）、WHD（工资和工时）、MSHA（矿山安全）、EPA（环境）、NLRB（劳动关系）等机构的累计记录，还包括了精心整理的母公司汇总、FastDOL风险评分以及SAM.gov的禁止状态。数据来源：fastdol.com。

This dataset contains 76,310 US employers with federal enforcement records from two or more agencies, joined into a single row per employer. The goal is to surface cross-agency patterns that single-source searches miss. Each row aggregates an employers accumulated record across OSHA (workplace safety), WHD (wage and hour), MSHA (mine safety), EPA (environmental), and NLRB (labor relations), plus a curated parent-company rollup, FastDOL risk scoring, and SAM.gov debarment status. Source: fastdol.com.

提供机构：

FastDOLz

搜集汇总

数据集介绍

构建方式

本数据集旨在聚合美国联邦机构对雇主的执法记录，以揭示单一源头检索难以发现的跨机构违规模式。其构建过程涵盖了来自OSHA（工作场所安全）、WHD（工资与工时）、MSHA（矿山安全）、EPA（环境）和NLRB（劳动关系）五大联邦机构的执法数据，并整合了SAM.gov的禁止参与联邦合同状态。通过采用归一化的雇主名称、州和邮政编码进行实体解析，将同一雇主在不同机构下的记录合并为单行数据。此外，利用经过精心筛选的种子表结合OSHA ITA公司名称数据，实现母公司层面的汇总。最终数据集囊括了76,310家至少被两个联邦机构处罚过的美国雇主，并包含一个20%的单来源雇主抽样作为对比基准。

特点

该数据集的核心特色在于其跨机构整合的视角，能够系统性地呈现雇主在多个联邦监管领域的违规全貌。数据中不仅包含雇主身份标识、行业分类及母公司信息，还细致记录了各机构的检查次数、违规数量、罚款金额、工伤死亡案例等关键指标，并附有FastDOL定制的风险等级、风险评分以及同行百分位排序。探索性分析揭示出多项显著规律：雇主被处罚的机构数量与其工人死亡率近乎线性相关；同时被OSHA、EPA和NLRB指控的雇主，其死亡率高达13.4%，是基线水平的四倍有余；而母公司级别的汇总则进一步揭示了隐藏的集团性风险。

使用方法

该数据集因覆盖维度丰富、实体关系清晰，在多个领域具有广泛的应用前景。在数据分析层面，用户可使用Python的Pandas库方便地载入CSV文件，需注意将'naics_code'列指定为字符串类型以避免精度丢失。建议的使用场景包括：为工伤赔偿与意外保险承保提供跨机构风险暴露评估；支持调查记者对多机构违规者进行深度挖掘；服务于学术研究中关于执法交叉效应的实证分析；用于企业ESG合规足迹的量化评价；作为机器学习特征工程中风险评分与机构计数的输入变量；以及助力政策研究者识别联邦执法中的监管盲区与协同效应。

背景与挑战

背景概述

在美国联邦执法体系中，职业安全、工资工时、环境保护及劳动关系等领域的监管通常由不同机构独立执行，导致跨机构违法模式被割裂的数据库所遮蔽。为弥合这一信息鸿沟，FastDOL团队于2025年创建了跨机构联邦违规数据集（Cross-Agency Federal Violations Database），其核心研究问题是揭示单一机构搜索无法呈现的多机构违规雇主的系统性特征。通过整合OSHA、WHD、MSHA、EPA及NLRB等五家联邦机构的执法记录，该数据集覆盖76,310家被两个以上机构处罚的美国雇主，并创新性地引入母公司层级汇总、风险评分及SAM.gov资格审查信息。这一资源为工伤赔偿核保、合规研究及执法政策分析提供了前所未有的跨机构视角，其对工人死亡率与多机构违规行为的强相关性揭露，显著推动了联邦执法碎片化问题的系统性认知。

当前挑战

该数据集所应对的领域挑战在于，传统单机构执法数据无法揭示雇主在与多个联邦监管机构交互时呈现的系统性风险。例如，数据集研究发现，被五个机构处罚的雇主发生工人死亡事件的概率是单机构处罚雇主的4倍，而同时被OSHA、EPA及NLRB记录在案的1,526家企业死亡率高达13.4%。构建过程中，技术挑战尤为严峻：实体消歧需通过归一化雇主名称、地址和邮编字段，将分散于十五个数据源的异构记录精准匹配至同一实体；母公司层级整合依赖人工构建的种子表与OSHA ITA企业名称数据的联合运算；抽样策略需对多来源雇主全量覆盖，同时从单来源雇主中抽取20%以形成对照组。此外，数据时效性与执法记录本身存在的行业报告偏差，始终是分析结论外推时需审慎考量的约束。

常用场景

经典使用场景

在联邦执法与公共安全领域，跨机构违规数据集为识别具有多维度违法记录的企业提供了独特的分析视角。经典使用场景聚焦于整合来自职业安全与健康管理局、工资工时司、矿山安全与健康管理局、环境保护局以及国家劳工关系委员会等多个联邦机构的执法数据，构建单一雇主的违规全貌。研究者可通过该数据集揭示跨机构违规的叠加效应，例如统计被多个机构处罚的企业比例，并关联其工伤死亡率等安全指标，从而发掘单来源搜索无法察觉的深层合规风险模式。

衍生相关工作

基于该数据集，已涌现一系列衍生工作，深化了跨监管领域的研究图谱。例如，有工作聚焦于母公司的汇总违规模式，发现拥有五处以上地点出现工亡事故的96家母公司，其全部运营地点的平均死亡率显著高于基准水平，揭示了企业集团层面的系统性风险。另一些研究则挖掘环保合规与工作场所安全的关联，证实环境保护局合规状态不佳的企业在职业伤害方面亦表现更差。此外，风险分级模型与联邦执法有效性评估等方向，均以此为基石展开深入探索。

数据集最近研究