five

FastDOLz/public-company-federal-compliance

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/FastDOLz/public-company-federal-compliance
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集将联邦工作场所执法记录与SEC母公司财务数据相结合,涵盖了714家上市公司的42,302个机构。每条记录代表一个机构,并附有其母公司的财务背景。数据集包含机构身份(名称、城市、州、邮政编码、NAICS分类)、母公司身份(母公司名称、SEC CIK、股票代码)、OSHA(检查、违规、罚款、死亡、住院等)、WHD(案件、总欠薪、受影响员工)、NLRB(总案件、ULP案件、代表案件)、EPA(检查、正式行动、不合规季度、罚款、合规状态)、母公司财务数据(收入、净收入、总资产、数据日期)以及FastDOL生成的风险评分和等级等信息。

This dataset joins federal workplace enforcement records with SEC parent-company financial data for 42,302 US establishments operated by 714 publicly traded companies. Each row is one establishment with its parent companys financial context attached. The data includes establishment identity (name, city, state, ZIP, NAICS classification), parent identity (parent name, SEC CIK, ticker), OSHA (inspections, violations, penalties, fatalities, etc.), WHD (cases, total back wages, employees affected), NLRB (total cases, ULP cases, representation cases), EPA (inspections, formal actions, non-compliance quarters, penalties, compliance status), parent financials (revenue, net income, total assets, facts-as-of date), and FastDOL artifacts like risk tier and score.
提供机构:
FastDOLz
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由FastDOL平台精心构建,整合了美国联邦层面的工作场所执法记录与上市公司母公司财务数据。其构建过程涉及从OSHA、WHD、NLRB、EPA等多家联邦机构采集执法数据,并通过SEC EDGAR系统获取母公司财务信息。通过实体解析技术,以标准化后的雇主名称、州和邮政编码为关键字段,将42,302个独立运营单位精准匹配至714家上市公司。最终,通过CIK对照表和种子实体表完成母公司层面的财务归并,形成每一条记录均包含运营单位身份、监管处罚历史及母公司财务全景的独特数据矩阵。
特点
该数据集的核心魅力在于其跨机构、跨维度的融合能力。它将OSHA的安全检查、WHD的工资案件、NLRB的劳资关系纠纷、EPA的环境合规记录与SEC的财务报表无缝衔接,揭示单一来源搜索无法呈现的执法模式。数据集中包含风险等级评分(高、中、低)和SAM.gov联邦合同排除标记,为用户提供了从微观处罚到宏观风险的立体视图。尤为引人注目的是,该数据集展现了如公用事业行业高集中度的NLRB案件、快餐连锁企业以工资执法为主而非安全执法的差异化特征,以及高死亡率密度在特定企业中的聚集现象。
使用方法
用户可通过CSV格式直接加载数据集,推荐使用Python的pandas库以`pd.read_csv('public_companies_federal_compliance.csv', dtype={'naics_code': str})`方式读取,并确保NAICS代码以字符串类型处理以免丢失前导零。该数据集适用于广泛的场景:在ESG分析中评估上市公司的合规足迹,在金融研究中探讨执法记录与营收或资产的相关性,在精算领域为工伤保险定价提供基准,在机器学习中利用风险评分和财务数据进行特征工程,或在调查新闻与学术研究中挖掘跨机构执法规律。完整的数据架构、方法论及最新版本均可通过FastDOL官方网站获取。
背景与挑战
背景概述
Public Company Federal Compliance数据集由FastDOL团队于2026年创建,旨在弥合美国联邦执法记录与上市公司财务数据之间的分析鸿沟。该数据集整合了来自OSHA、WHD、NLRB、EPA及SAM.gov等五个联邦机构的工作场所执法记录,并与SEC EDGAR系统中的母公司财务数据进行实体级匹配,覆盖714家上市公司的42,302个营业场所。其核心研究问题在于揭示跨机构执法模式与公司财务表现之间的关联,为ESG分析、金融风险建模及学术研究提供结构化数据基础。作为同类数据集中规模最大的跨机构联合数据集,它填补了企业合规领域缺乏多源异构数据整合的空白,对上市公司治理评估和政策制定具有重要参考价值。
当前挑战
该数据集解决的领域挑战在于传统执法数据库各自独立,难以分析企业层面的合规全貌;将OSHA、WHD、NLRB等机构记录与SEC财务数据关联,可揭示隐藏的跨机构执法模式,如公用事业领域NLRB案件高度集中、餐饮业工资执法主导等统计规律。构建过程中的挑战包括:实体解析需处理970个母公司法律名称变体与714个唯一SEC CIK的映射,通过标准化雇主名称、州和邮政编码进行模糊匹配;执法记录因各机构报告实践差异而产生质量波动,需设计风险分层算法对42,302个场所评估低、中、高等级;以及确保SAM.gov排除标记与母公司关联的准确性,最终实现了5.4%高风险场所的精准识别。
常用场景
经典使用场景
该数据集经典使用场景为跨机构执法模式的整合分析。通过将OSHA、WHD、NLRB、EPA等联邦机构对42,302个运营场所的执法记录与SEC披露的714家上市公司财务数据精准关联,研究人员能够系统性揭示执法事件与企业财务健康之间的隐秘纽带。例如,可据此分析高风险企业的跨机构违规聚类特征,或探究不同行业在劳动安全、薪酬合规与环境责任上的执法密集度差异,为多层次合规研究提供坚实的数据枢纽。
衍生相关工作
该数据集衍生了多项经典工作,包括基于风险评分与机构违规频次的机器学习合规预测模型,用于识别上市企业下一财年的执法高发区。研究者还构建了跨机构执法网络图,揭示如公用事业领域中高密度NLRB案件与运营结构间的关联。另一衍生方向是将该数据整合入ESG评分框架,形成以联邦执法记录为硬性指标的合规评级工具,显著提升了传统ESG数据源的颗粒度与时效性。
数据集最近研究
最新研究方向
该数据集通过将美国联邦工作场所执法记录(如OSHA、WHD、NLRB、EPA等)与SEC公开上市公司财务数据进行精细化的机构层级关联,为ESG分析、企业合规金融研究以及跨机构执法模式识别开辟了前沿路径。当前研究焦点集中在利用其覆盖714家上市公司、422处机构的丰富字段,探索高风险企业与低合规表现之间的财务关联,尤其是通过NLRB高集中度的公用事业案例、UPS的劳资纠纷密度、Tyson Foods的致命事故强度以及麦当劳等餐饮连锁的工资执法主导特征,揭示行业特有的合规风险画像。数据集的联合分析能力还为工人赔偿承保、机器学习特征工程及调查性新闻提供了实证基础,推动了从单一机构碎片化信息向综合风险评估范式的转变,在ESG投资和企业合规治理领域具有重要影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作