hse-benchmarks-2026
收藏Hugging Face2026-05-13 更新2026-05-14 收录
下载链接:
https://huggingface.co/datasets/SmartQHSE/hse-benchmarks-2026
下载链接
链接失效反馈官方服务:
资源简介:
HSE Benchmarks 2026 是一个整合了全球多个行业职业健康与安全(HSE/EHS)关键绩效指标(KPI)的基准数据集。该数据集旨在为安全专业人员、研究人员和企业提供免费、开放且可比较的行业安全统计数据,以支持基准分析、风险评估和安全管理决策。数据集内容涵盖了总可记录事故率(TRIR)、损失工时事故率(LTIFR)、工作日损失率(DART)、死亡率以及职业暴露限值(OELs)等核心安全指标。数据覆盖范围广泛,涉及超过20个行业(如建筑、石油天然气、制造业等)和15个国家。数据以表格形式组织,CSV 和 JSON 格式各一份,其中每一行数据代表一个特定的行业和维度组合,数据规模小于1000行。所有数据均整合自权威的官方和行业机构,包括美国劳工统计局(BLS)、英国健康与安全执行局(HSE UK)、国际石油天然气生产商协会(IOGP)、国际劳工组织(ILO)、美国职业安全与健康管理局(OSHA)、欧盟统计局(Eurostat)等。数据集在知识共享署名 4.0 国际许可(CC BY 4.0)下发布,允许商业使用但需注明来源。该数据集每年在美国劳工统计局年度调查发布后更新,适用于表格分类、文本检索、行业基准比较、安全绩效分析以及为大型语言模型(LLM)提供结构化 HSE 知识等多种任务和场景。
HSE Benchmarks 2026 is a benchmark dataset that integrates key performance indicators (KPIs) for occupational health and safety (HSE/EHS) across multiple industries worldwide. It aims to provide safety professionals, researchers, and businesses with free, open, and comparable industry safety statistics to support benchmark analysis, risk assessment, and safety management decision-making. The dataset covers core safety metrics such as Total Recordable Incident Rate (TRIR), Lost Time Injury Frequency Rate (LTIFR), Days Away, Restricted, or Transferred (DART) rate, fatality rate, and Occupational Exposure Limits (OELs). The data has a broad coverage, involving over 20 industries (e.g., construction, oil and gas, manufacturing) and 15 countries. The data is organized in tabular form, with one copy each in CSV and JSON formats, where each row represents a specific combination of industry and dimension, and the data size is less than 1000 rows. All data is consolidated from authoritative official and industry agencies, including the U.S. Bureau of Labor Statistics (BLS), UK Health and Safety Executive (HSE UK), International Association of Oil & Gas Producers (IOGP), International Labour Organization (ILO), U.S. Occupational Safety and Health Administration (OSHA), and Eurostat. The dataset is released under the Creative Commons Attribution 4.0 International License (CC BY 4.0), allowing commercial use with attribution. It is updated annually after the U.S. Bureau of Labor Statistics releases its annual survey, and is suitable for various tasks and scenarios such as table classification, text retrieval, industry benchmark comparison, safety performance analysis, and providing structured HSE knowledge for large language models (LLMs).
创建时间:
2026-05-03
原始信息汇总
HSE Benchmarks 2026 数据集概述
基本信息
- 数据集名称:HSE Benchmarks 2026
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
- 语言:英语
- 数据集规模:少于1000条记录
- 任务类型:表格分类、文本检索
数据内容
该数据集整合了15个国家、20多个行业的行业安全基准指标,包括:
- TRIR(可记录工伤率)
- LTIFR(损失工时工伤频率)
- DART(缺勤/受限/转岗率)
- 死亡率
- 职业接触限值
数据来源
数据来源于多个权威国际机构:
- 美国劳工统计局(BLS)— 职业伤害和疾病调查(SOII)2024年版
- 美国劳工统计局(BLS)— 致命职业伤害普查(CFOI)2024年版
- 美国劳工部 — OSHA伤害追踪应用(ITA)2024年提交数据
- 英国健康与安全执行局(HSE)— RIDDOR伤害统计
- 国际油气生产商协会(IOGP)— 年度安全绩效数据
- 国际劳工组织(ILO)— 全球职业伤害统计
- 欧洲工作安全与健康机构(EU-OSHA)和Eurostat ESAW
数据文件
| 文件 | 描述 |
|---|---|
data.csv |
表格数据 — 每个行业/维度一行 |
data.json |
相同数据,附带完整元数据块和指标定义 |
访问方式(CC BY 4.0,CORS开放,无需认证)
- 规范页面:https://www.smartqhse.com/datasets/hse-benchmarks-2026
- 静态JSON:https://www.smartqhse.com/datasets/hse-benchmarks-2026/data.json
- 静态CSV:https://www.smartqhse.com/datasets/hse-benchmarks-2026/data.csv
- REST API(可筛选):https://www.smartqhse.com/api/v1/benchmarks
维护与更新
每年在BLS SOII 11月发布后更新,可通过REST API获取实时更新和额外数据切片(无速率限制,无需认证)。
引用方式
SmartQHSE Ltd (2026). HSE Benchmarks 2026 [dataset]. CC BY 4.0.
https://www.smartqhse.com/datasets/hse-benchmarks-2026
相关数据集
本数据集属于SmartQHSE开放HSE数据系列(完整目录:https://www.smartqhse.com/datasets · 数据论文DOI:https://doi.org/10.5281/zenodo.20010657),其他相关数据集包括:
osha-rates-2026— 按NAICS分类的TRIR/DART/死亡率(BLS SOII + CFOI + OSHA ITA)hse-qa-corpus— 长形式HSE问答对(用于指令微调 + RAG)hse-glossary— 权威HSE术语定义(130+条目)hse-regulations-changelog— 25+司法管辖区法规更新实时追踪major-process-safety-incidents-2026— 重大过程安全事故参考数据库hse-instruction-tuning— HSE微调工作流程的指令微调对hse-incident-rate-formulas— 权威TRIR/LTIFR/DART/EMR公式及示例hse-regulators-directory— 40+国家劳动主管部门信息hse-standards-crosswalk— ISO 45001 ↔ OSHA ↔ OSHAD-SF ↔ Aramco SAPI ↔ RIDDOR 映射gcc-heat-illness-regulations-2026— 海湾国家夏季高温禁令规则osha-most-cited-standards-2024— 前30项OSHA引用标准osha-regulated-chemicals-pel-2026— 前30项OSHA管制化学品PELnamed-process-safety-incidents-extended-2026— 43条扩展事故参考(1911–2024)hse-acronym-dictionary-2026— 150+ HSE/EHS缩略词定义
搜集汇总
数据集介绍

构建方式
HSE Benchmarks 2026数据集由SmartQHSE Ltd构建,旨在整合全球职业健康与安全领域的核心绩效指标。该数据集汇聚了来自美国劳工统计局(BLS)、英国健康与安全执行局(HSE UK)、国际油气生产者协会(IOGP)、国际劳工组织(ILO)、美国职业安全与健康管理局(OSHA)、欧盟统计局(Eurostat)、美国国家职业安全与健康研究所(NIOSH)以及美国政府工业卫生师协会(ACGIH)等权威机构的公开统计数据。数据以CSV和JSON两种格式发布,每一行代表特定行业或维度的安全基准数值,JSON文件则额外包含完整的元数据块与指标定义,便于用户理解数据的背景与计算逻辑。数据集每年在BLS SOII报告发布后进行更新,确保信息的时效性与可靠性。
特点
该数据集的核心优势在于其跨区域、跨行业的广泛覆盖与高度整合性。它涵盖了15个国家和20余个行业的职业伤害与疾病统计数据,包括总可记录伤害率(TRIR)、损失工时伤害频率(LTIFR)、转移或受限工作天数率(DART)、死亡率以及职业暴露限值等关键指标。数据来源均为国际公认的官方机构与行业组织,确保了数据的权威性与可比性。此外,数据集采用CC BY 4.0许可协议开放共享,支持商业用途,打破了传统行业机构通过昂贵会员制壁垒获取统计信息的限制,为HSE专业人员和研究者提供了免费、透明的安全数据资源。
使用方法
用户可通过多种方式便捷地获取和利用该数据集。直接下载方式包括从HuggingFace页面或SmartQHSE官网获取CSV和JSON格式文件,适用于本地分析与建模。对于需要动态查询的场景,数据集提供了基于REST API的过滤接口(无速率限制、无需认证),用户可根据国家、行业、年份等维度筛选所需基准数据。该数据集适用于分类任务、文本检索以及安全绩效的对比分析,例如构建行业安全风险预测模型、训练HSE领域的自然语言处理系统,或作为企业安全对标评估的参考基准。数据集的CC BY 4.0许可允许自由使用,仅需在成果中注明出处。
背景与挑战
背景概述
HSE Benchmarks 2026数据集由SmartQHSE Ltd于2026年创建,旨在整合全球职业健康与安全(HSE)领域的核心绩效指标。该数据集跨越15个国家和20余个行业,系统收集了包括总可记录伤害率(TRIR)、损失工时事故频率(LTIFR)、工伤缺勤天数率(DART)、死亡率以及职业暴露限值在内的关键基准数据。其数据来源涵盖美国劳工统计局、英国健康与安全执行局、国际油气生产者协会、国际劳工组织、美国职业安全与健康管理局、欧盟统计局、美国国家职业安全卫生研究所及美国政府工业卫生师协会等权威机构。作为HSE领域首个大规模、开放获取的标准化基准数据集,它为工业安全研究、跨国比较分析以及人工智能驱动的安全预测模型提供了不可或缺的定量基础,显著推动了职业安全科学从经验判断向数据驱动的转型。
当前挑战
该数据集所解决的核心领域挑战在于,全球职业安全数据长期分散于不同机构、国家与行业之间,缺乏统一的分类标准、统计口径和开放获取渠道,导致跨区域、跨部门的基准比较极为困难。在数据构建过程中,SmartQHSE面临多重技术与非技术挑战:不同来源数据在定义(如‘可记录伤害’的收录标准)、时间粒度(从年度到累计值)、行业分类编码(如NAICS与ISIC的映射)上的显著差异,需要进行精细化的语义对齐与归一化处理;部分官方数据集仅提供受限访问或需付费订阅,团队必须通过学术引用与公共数据接口合法获取;此外,数据实时性与历史回溯之间的平衡也是一大难题,例如需将美国BLS的SOII年度发布与英国HSE的季度统计进行时间轴统一。这些挑战的克服,得益于团队对HSE法规体系的深入理解与自动化数据流水线技术的应用,最终实现了22个维度指标的稳健整合与持续更新。
常用场景
经典使用场景
HSE Benchmarks 2026数据集汇聚了来自美国劳工统计局、英国健康与安全执行局、国际油气生产商协会、国际劳工组织等权威机构的多维度行业安全基准指标,包括总可记录伤害率(TRIR)、损失工时伤害频率(LTIFR)、转移或限制工作天数事件率(DART)及死亡率等。该数据集横跨15个国家与20余个行业,为职业安全健康领域的横向对比与纵向趋势分析提供了标准化、可复用的数据基础。研究者可将其作为构建事故率预测模型或风险评估系统的基础特征库,亦可基于国家与行业维度进行分层统计分析,探索职业伤害分布规律。此外,该数据集的表格化结构与JSON格式元数据描述使其易于整合至Python数据科学生态系统,广泛应用于回归分析、聚类分析与时序建模等经典机器学习任务。
解决学术问题
该数据集系统性地回应了职业安全健康研究中长期存在的数据碎片化与可比性缺失问题。以往学者进行跨国或跨行业的伤害率研究时,往往受限于分散的统计口径与机构壁垒,难以构建统一的实证分析框架。HSE Benchmarks 2026通过整合BLS SOII、CFOI、欧盟统计局ESAW等八大源头数据,并标准化关键指标的度量方式,使得研究者能够绕过高昂的数据获取成本,直接聚焦于核心学术议题:如行业特征与事故率之间的统计关联、不同国家监管强度对工伤发生率的调节效应、以及宏观经济周期与职业伤害频次的动态关系。该数据集为验证安全投入的经济回报假说、评估职业安全标准的有效性提供了宝贵的实证基础,显著降低了该领域实证研究的复现门槛。
衍生相关工作
该数据集的发布催生了一系列关联的学术与工业衍生工作。在基准数据层面,SmartQHSE围绕同一主题构建了包含OSHA规则更新日志、化学品容许暴露限值、安全标准跨行业对照表在内的二十余个补充数据集,共同组面向HSE领域的知识图谱。在模型研发方面,hse-qa-corpus与hse-instruction-tuning数据集通过指令微调与检索增强生成技术,专门训练出能够处理职业安全合规问答、事故报告自动生成等任务的大语言模型。此外,数据集中涵盖的重大过程安全事故案例库(如博帕尔毒气泄漏、深水地平线溢油)被广泛应用于安全工程的案例教学与风险模拟系统,而HSE术语词典与法规变更日志则支撑起专家知识库的构建,推动职业安全健康领域从经验驱动向数据驱动逐步演变。
以上内容由遇见数据集搜集并总结生成



