hse-regulations-changelog
收藏Hugging Face2026-05-13 更新2026-05-14 收录
下载链接:
https://huggingface.co/datasets/SmartQHSE/hse-regulations-changelog
下载链接
链接失效反馈官方服务:
资源简介:
HSE 法规变更日志数据集(快照 v2026.05)是一个精心整理的、跨多个主要司法管辖区的健康、安全与环境(HSE)法规更新记录集合。该数据集旨在追踪和记录 HSE 相关法规的变更,涵盖美国职业安全与健康管理局(OSHA)、英国健康与安全执行局(HSE UK)、欧盟委员会、国际标准化组织(ISO)、阿联酋、沙特阿拉伯、卡塔尔、阿曼、澳大利亚等多个监管机构发布的法规更新。数据集当前快照包含 21 条记录,每条记录都引用了其权威来源,并标注了司法管辖区、监管机构和变更类型。数据以 JSONL(每行一条 JSON 记录)、JSON 数组和 CSV 格式提供,可通过 Hugging Face `datasets` 库直接加载,或通过提供的 REST API 实时访问(支持过滤)。数据集适用于文本分类(如按变更类型或司法管辖区分类)和文本检索(如查找特定主题或时间的法规更新)等任务。数据集为季度快照,定期更新(如下一版为 v2026.08),对于需要最新数据的用户,建议使用实时 REST API。需要注意的是,数据覆盖范围目前偏向于拥有完善发布渠道的英语监管机构(如 OSHA、HSE UK、EU),而拉丁美洲、部分亚洲和非洲地区的监管机构在 v1 版本中代表性不足。数据集不包含法规全文,而是提供指向原始权威来源的链接(sourceUrl)。数据集采用知识共享署名 4.0 国际许可协议(CC BY 4.0),允许商业使用,但需注明出处。
The HSE Regulation Change Log Dataset (Snapshot v2026.05) is a meticulously curated collection of health, safety, and environment (HSE) regulation update records across multiple major jurisdictions. This dataset aims to track and document changes in HSE-related regulations, covering updates from regulatory bodies such as the U.S. Occupational Safety and Health Administration (OSHA), the UK Health and Safety Executive (HSE UK), the European Commission, the International Organization for Standardization (ISO), the United Arab Emirates, Saudi Arabia, Qatar, Oman, Australia, and others. The current snapshot contains 21 records, each referencing its authoritative source and annotated with jurisdiction, regulatory agency, and change type. Data is provided in JSONL (one JSON record per line), JSON array, and CSV formats, and can be loaded directly via the Hugging Face `datasets` library or accessed in real-time via a provided REST API (with filtering support). The dataset is suitable for tasks such as text classification (e.g., by change type or jurisdiction) and text retrieval (e.g., finding regulation updates on specific topics or time periods). The dataset is a quarterly snapshot, regularly updated (e.g., the next version is v2026.08), and for users requiring the latest data, the real-time REST API is recommended. It should be noted that data coverage currently leans towards English-speaking regulatory agencies with well-established publication channels (e.g., OSHA, HSE UK, EU), while regulatory bodies in Latin America, parts of Asia, and Africa are underrepresented in version 1. The dataset does not include the full text of regulations but provides links to the original authoritative sources (sourceUrl). The dataset is licensed under the Creative Commons Attribution 4.0 International License (CC BY 4.0), allowing commercial use with attribution required.
创建时间:
2026-05-03
原始信息汇总
数据集概述:HSE Regulations Changelog (snapshot v2026.05)
该数据集是一个精心策划的HSE(健康、安全与环境)法规变更日志,涵盖了全球多个主要司法管辖区,旨在追踪法规变化并提供权威来源引用。
基本信息
- 数据集名称:HSE Regulations Changelog (snapshot v2026.05)
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0),允许商业使用,需注明出处。
- 语言:英语
- 数据集大小:包含21条记录(n<1K)。
- 标签:涉及法规、合规、法规变更日志、OSHA、HSE-UK、ISO、EU、UAE、Saudi-Arabia、Qatar、职业安全、时间序列、法规追踪等。
- 任务类别:适用于文本分类、文本检索等任务。
- DOI:10.5281/zenodo.20010262
- Wikidata实体:Q139623117
- 更新频率:季度快照数据集,计划每季度刷新一次(下一版本:v2026.08)。
覆盖范围
该数据集覆盖以下主要司法管辖区的HSE法规更新:
- 美国:OSHA
- 英国:HSE UK
- 欧洲:European Commission
- 国际标准:ISO
- 阿联酋:UAE MOHRE
- 沙特阿拉伯:Saudi MHRSD
- 卡塔尔:Qatar MADLSA
- 阿曼
- 澳大利亚:Safe Work Australia
- 以及其他更多区域。
注意:当前版本(v1)的数据覆盖偏向于具有强大发布渠道的英语监管机构(如OSHA、HSE UK、EU),拉丁美洲、部分亚洲和非洲的监管机构代表较少。
数据内容与结构
- 数据示例:每一条记录都引用了权威来源,并标记了司法管辖区、监管机构和变更类型。数据集不包含法规文本本身,而是通过
sourceUrl提供可引用的主要来源。 - 追踪要素:包括生效日期(effective date)和追踪日期(tracking date)。法规可能在被追踪之前就已发布。
数据文件
数据集提供以下格式的文件:
| 文件 | 描述 |
|---|---|
data.jsonl |
主要格式,每行一个JSON记录。可通过datasets.load_dataset()直接加载。 |
data.json |
与data.jsonl相同的数据,格式为单个JSON数组。 |
data.csv |
选择的关键字段,以CSV格式提供,方便电子表格用户使用。 |
使用方式
-
本地加载:使用Hugging Face
datasets库直接加载。 python from datasets import load_dataset ds = load_dataset("SmartQHSE/hse-regulations-changelog") print(ds["train"][0]) -
实时访问:可通过公开的REST API进行筛选查询,无需认证。
- 规范页面:https://www.smartqhse.com/regulations-changelog
- REST API:https://www.smartqhse.com/api/v1/regulations-changelog
相关数据集
该数据集是SmartQHSE开放HSE数据集合的一部分,其他相关数据集包括(均采用CC BY 4.0许可证):
hse-benchmarks-2026osha-rates-2026hse-qa-corpushse-glossarymajor-process-safety-incidents-2026hse-instruction-tuninghse-incident-rate-formulashse-regulators-directoryhse-standards-crosswalkgcc-heat-illness-regulations-2026osha-most-cited-standards-2024osha-regulated-chemicals-pel-2026named-process-safety-incidents-extended-2026hse-acronym-dictionary-2026
数据来源
数据整合自以下权威机构并重新发布:
- 美国劳工统计局 (BLS) — SOII + CFOI
- 美国劳工部 — OSHA伤害追踪应用程序及标准
- 英国健康与安全执行局 (HSE)
- 欧盟委员会 + 欧盟统计局 (Eurostat) ESAW
- IOGP, ILO, NIOSH, ACGIH
- 阿联酋OSHAD-SF, 沙特SAPI, 卡塔尔QCDD, 阿曼MOLSD
- ISO技术委员会 (TC 283 — 职业健康与安全管理体系)
搜集汇总
数据集介绍

构建方式
该数据集由SmartQHSE Ltd精心构建,旨在系统记录全球主要司法管辖区职业健康安全(HSE)法规的变更历史。数据来源涵盖美国职业安全与健康管理局(OSHA)、英国健康与安全执行局(HSE UK)、欧盟委员会、国际标准化组织(ISO)以及阿联酋、沙特、卡塔尔等中东国家的监管机构。每条记录均标注权责机构、变更类型及权威来源链接,确保可追溯性。数据集以JSON Lines(data.jsonl)为主格式,同时提供JSON数组和CSV格式,便于不同技术背景的用户直接通过HuggingFace的datasets库或REST API进行加载与查询。当前快照版本v2026.05收录21条精选条目,未来将按季度更新。
特点
该数据集具有鲜明的时间序列属性,每条记录均包含生效日期与追踪日期,可清晰反映法规的演进脉络。其核心优势在于跨司法管辖区的覆盖广度,从欧美成熟监管体系到海湾地区新兴标准均有所涉猎,为跨国合规分析提供了统一视角。所有条目均附有原始发布源URL,而非转载法规原文,确保数据引用合规且准确。数据集采用CC BY 4.0许可协议,支持商业使用,并已注册Zenodo数字对象标识符(DOI)及维基数据实体,兼具学术透明性与工业实用性。注意当前版本对拉丁美洲、亚洲部分区域及非洲的覆盖尚有不足,且数据主要聚焦英语监管机构。
使用方法
用户可通过HuggingFace标准的load_dataset函数便捷调用,仅需一行Python代码即可将数据集加载为可迭代的字典结构。面向实时性需求,SmartQHSE同步提供了CORS开放的REST API端点(/api/v1/regulations-changelog),支持无认证过滤查询。数据集适用于文本分类(如变更类型识别)、信息检索(如按管辖权筛选最新法规)等自然语言处理任务,也可用于构建合规监控系统或法规演变分析模型。建议搭配SmartQHSE系列其他数据集(如hse-benchmarks-2026、hse-qa-corpus)使用,以构建完整的HSE知识图谱。学术引用时应使用指定DOI,商业使用时需按CC BY 4.0要求保留署名。
背景与挑战
背景概述
在全球职业安全与健康(HSE)监管体系日益复杂且法规更新频繁的背景下,由SmartQHSE Ltd于2026年创建的HSE Regulations Changelog数据集应运而生。该数据集聚焦于追踪美国OSHA、英国HSE、欧盟委员会、国际标准化组织(ISO)以及中东多国(如阿联酋、沙特、卡塔尔)等主要司法管辖区的法规变更,旨在为合规管理与风险预警提供结构化、可溯源的时间序列数据。作为首个公开的跨辖区HSE法规变更日志,它通过21条精选记录及其权威来源链接,填补了该领域缺乏系统性、机器可读的法规动态追踪工具的空白,对推动HSE领域的自动化合规研究与数据驱动决策具有里程碑意义。
当前挑战
该数据集所应对的核心挑战在于HSE法规的碎片化与高动态性:企业需同时跟踪数十个不同国家、不同语言、不同发布格式的监管机构的更新,手动监控成本极高且极易遗漏;此外,法规生效日期与实际追踪日期之间可能存在延迟,增加了合规时效性判定的复杂性。在构建过程中,挑战主要源于数据源的异构性——各监管机构的发布管道、元数据标准及可访问性差异巨大,导致数据集初期对英语国家覆盖较全,而对拉丁美洲、亚洲及非洲的覆盖不足,这要求后续通过持续扩展来源与季度刷新机制逐步弥合地域偏差。
常用场景
经典使用场景
在职业安全与健康(HSE)监管合规领域,数据集通常用于追踪不同司法管辖区法规的变更动态。hse-regulations-changelog 数据集汇聚了来自美国 OSHA、英国 HSE、欧盟委员会、国际标准化组织(ISO)以及中东多国劳动主管机构的法规更新条目,每条记录均标注了监管机构、变更类型及权威来源链接。经典使用场景包括构建法规变化的时间序列分析模型,用以捕捉全球 HSE 法规的演进趋势;亦可作为检索增强生成(RAG)系统的知识库,支撑合规问答系统实时响应最新的监管要求变更。
实际应用
在实际产业场景中,该数据集为跨国企业的 HSE 合规管理提供了自动化解决方案。企业可将其集成至内部合规监控系统,通过 API 接口实时获取目标市场的法规变更通知,避免因信息滞后导致的处罚风险。对于建筑、石油天然气及制造业等高风险行业,数据集的标签化结构使得开发基于规则的合规检查清单、自动化影响分析工具成为可能,显著降低了人工审核成本。此外,它还支撑了监管科技(RegTech)产品的迭代,例如智能预警平台与合规知识图谱的构建。
衍生相关工作
该数据集衍生了一系列重要的相关工作。在数据层面,它与同一机构发布的 hse-benchmarks-2026、osha-rates-2026 等数据集共同构成了完整的 HSE 开放数据生态,支持从法规到执行效果的端到端分析。在模型层面,研究者基于此数据集开发了法规变更分类器与语义检索模型,推动了领域专用自然语言处理(NLP)工具链的进步。更值得关注的是,数据集的开放发布模式本身也成为一种标杆,激励了更多监管机构与学术团体效仿其 CC BY 4.0 许可下的数据共享策略,促进了 HSE 领域的知识民主化。
以上内容由遇见数据集搜集并总结生成



