Construction Safety Dataset (CSDataset)

Name: Construction Safety Dataset (CSDataset)
Creator: 亚利桑那州立大学
Published: 2025-08-09 09:26:51
License: 暂无描述

arXiv2025-08-09 更新2025-08-15 收录

下载链接：

http://arxiv.org/abs/2508.09203v1

下载链接

链接失效反馈

官方服务：

资源简介：

CSDataset 是一个由亚利桑那州立大学创建的大型多层级建筑安全数据集，包含来自职业安全与健康管理局 (OSHA) 的 2013 年至 2022 年间超过 50,000 条事故记录、100,000 条检查和关联违规数据。该数据集整合了结构化属性（如事故类型、伤害严重程度、工作职位、天气状况和地理数据）和非结构化叙述字段，支持机器学习和大型语言模型的各种方法，可用于事故严重程度预测、风险分析等任务。

CSDataset is a large multi-level construction safety dataset created by Arizona State University. It contains over 50,000 incident records and 100,000 inspection and associated violation records sourced from the U.S. Occupational Safety and Health Administration (OSHA) between 2013 and 2022. This dataset integrates structured attributes such as incident type, injury severity, job role, weather conditions, and geospatial data, alongside unstructured narrative fields. It supports a diverse range of machine learning and large language model (LLM) methodologies, and can be utilized for tasks including incident severity prediction, risk analysis, and more.

提供机构：

亚利桑那州立大学

创建时间：

2025-08-09

搜集汇总

数据集介绍

构建方式

在建筑安全研究领域，数据集的构建质量直接关系到研究成果的可靠性。CSDataset通过整合美国职业安全与健康管理局（OSHA）2013至2022年间的建筑事故报告、检查记录及违规数据，采用多级结构化方法构建。数据收集阶段覆盖全美50个州及领地的数千个工地，通过activity_nr等关键字段实现事故与检查记录的关联。清洗流程包含无效条目剔除、分类变量标准化及文本预处理，最终形成包含15万条记录的基准数据集，支持跨级别因果分析与多模态建模。

使用方法

该数据集支持三类典型应用场景：在预测建模中，研究者可联合结构化特征与文本叙述，通过XGBoost等模型预测伤害严重程度；因果分析方面，利用倾向得分匹配（PSM）可验证投诉驱动检查使后续事故概率降低17.3%的假设；对于LLM应用，GPT-4等模型可通过多模态提示理解事故全貌。数据集按7:3划分训练测试集，并提供标准化评估指标，确保不同研究间的可比性。跨级别查询接口支持从宏观趋势分析到具体工地安全审计的多种研究粒度。

背景与挑战

背景概述

Construction Safety Dataset (CSDataset)由亚利桑那州立大学的研究团队于2025年推出，旨在解决建筑安全研究领域数据不足的问题。该数据集整合了美国职业安全与健康管理局（OSHA）2013至2022年的多层级记录，涵盖事故、检查与违规数据，规模超过15万条。其创新性在于融合结构化属性（如天气条件、职业代码）与非结构化文本叙述，支持机器学习与大语言模型的联合分析。作为首个实现事故-检查-违规跨层级关联的基准数据集，它为预测性安全分析、因果推理等研究提供了重要基础设施，显著推动了建筑安全从被动响应到主动预防的范式转变。

当前挑战

CSDataset针对建筑安全领域的两大核心挑战：其一，传统数据分散且单一维度（如仅事故记录），难以分析检查干预与事故率的因果关系；其二，非结构化文本（如事故描述）与结构化数据的异构性融合问题。在构建过程中，研究团队需解决多源数据标准化（如OSHA不同年份字段差异）、跨实体关联（通过activity_nr等标识符链接事故与检查记录）以及文本噪声过滤（去除无效标点、行业术语归一化）等难题。此外，数据的地理分布不均衡（覆盖全美50州但区域密度差异大）也为建模的泛化性带来挑战。

常用场景

经典使用场景

在建筑安全研究领域，CSDataset被广泛应用于多级风险分析，通过整合事故记录、检查报告和违规数据，为研究者提供了一个全面的视角来理解建筑工地的安全动态。该数据集特别适用于机器学习和大语言模型的训练，能够支持从文本分类到因果推理的多种任务。

解决学术问题

CSDataset解决了建筑安全研究中数据分散和规模不足的问题，通过提供超过15万条记录的多模态数据，支持了从单一事故分析到跨级别因果关系的复杂研究。其结构化与非结构化数据的结合，为预测模型和自然语言处理任务提供了丰富的信息源。

实际应用

在实际应用中，CSDataset被用于建筑公司的风险管理系统中，帮助预测事故严重性和识别高风险活动。例如，通过分析投诉驱动的检查数据，企业能够优化安全检查和干预策略，从而显著降低后续事故的发生概率。

数据集最近研究