five

hse-standards-crosswalk

收藏
Hugging Face2026-05-13 更新2026-05-14 收录
下载链接:
https://huggingface.co/datasets/SmartQHSE/hse-standards-crosswalk
下载链接
链接失效反馈
官方服务:
资源简介:
HSE标准交叉对照数据集是一个结构化的表格数据集,旨在映射和比较不同标准体系中关于健康、安全与环境(HSE)的20个核心主题领域。数据集覆盖了包括ISO国际标准、IEC国际电工标准、ANSI/ASSP美国自愿性标准、AS/NZS澳新标准、OSHA美国联邦法规、EN欧洲协调标准、NIOSH美国建议、IOGP/API行业标准、区域法规(如Seveso/COMAH)以及Wikidata实体在内的多个标准体系。每个数据行对应一个HSE主题(例如职业健康安全管理体系、过程安全管理、个人防护装备等),并列出该主题在各个标准体系中的等效或相关标准编号,若某体系无对应标准则标记为null。数据集规模小于1000条记录。该数据集专为支持检索增强生成(RAG)系统、文本检索和表格分类等任务设计,能够帮助用户快速查询和对比全球不同司法管辖区及行业在特定HSE主题上的标准要求,例如查找某个ISO标准对应的OSHA法规或澳新标准。它是SmartQHSE开放HSE数据集合的一部分,与HSE术语表、监管机构目录等配套数据集协同使用。

The HSE Standards Cross-Reference Dataset is a structured tabular dataset designed to map and compare 20 core thematic areas related to Health, Safety, and Environment (HSE) across different standard systems. It covers multiple standard systems including ISO international standards, IEC international electrotechnical standards, ANSI/ASSP American voluntary standards, AS/NZS Australia-New Zealand standards, OSHA U.S. federal regulations, EN European harmonized standards, NIOSH U.S. recommendations, IOGP/API industry standards, regional regulations (such as Seveso/COMAH), and Wikidata entities. Each data row corresponds to an HSE theme (e.g., occupational health and safety management systems, process safety management, personal protective equipment, etc.) and lists equivalent or related standard numbers for that theme across various standard systems, with null marked if no corresponding standard exists in a system. The dataset contains fewer than 1000 records. It is specifically designed to support tasks such as retrieval-augmented generation (RAG) systems, text retrieval, and tabular classification, enabling users to quickly query and compare standard requirements for specific HSE topics across different jurisdictions and industries globally, for example, finding OSHA regulations or Australian-New Zealand standards corresponding to an ISO standard. It is part of the SmartQHSE Open HSE Data Collection and is used in conjunction with配套 datasets such as HSE glossaries and regulatory agency directories.
创建时间:
2026-05-09
原始信息汇总

数据集概述:HSE Standards Crosswalk

该数据集旨在打通不同 HSE(健康、安全与环境)标准体系之间的对应关系,为大型语言模型(LLM)和 RAG(检索增强生成)系统提供结构化参考。

核心内容

  • 覆盖范围:涵盖 20 个 HSE 主题领域,涉及主要标准体系。
  • 主题与标准示例
    • 职业健康安全管理体系 → ISO 45001:2018
    • 过程安全管理 → OSHA 29 CFR 1910.119(美国)
    • 个人防护装备(头部防护) → ISO 3873:1977
    • 温室气体核算 → ISO 14064-1:2018
  • 完整主题列表:包括风险管理、功能安全、资产完整性管理、危险与可操作性研究、听力保护、呼吸防护、危险化学品分类与标签、ESG 报告等。

数据行结构(每行包含字段)

每个主题在所有适用的标准体系中标注对应的标准编号,字段包括:

  • ISO(国际标准)
  • IEC(国际电工/仪器标准)
  • ANSI/ASSP(美国自愿标准)
  • AS/NZS(澳大利亚/新西兰标准)
  • OSHA(美国联邦法规)
  • EN(欧洲协调标准)
  • NIOSH(美国建议)
  • IOGP / API / 行业协会
  • 区域性标准(Seveso/COMAH/CLP/REACH/UN GHS)
  • Wikidata Q-ID(标准对应的维基数据实体)

如果某标准体系无对应项,则该字段值为 null,明确表示“缺口”。

数据集规模与标签

  • 规模n<1K(少于 1000 行)
  • 语言:英语
  • 许可证:CC BY 4.0
  • 任务类型:文本检索(text-retrieval)、表格分类(tabular-classification)

用途示例

  • RAG 查询:例如“OHSAS 18001 的 OSHA 对应标准是什么?” → 返回 OHSAS 18001 已撤销及替代标准信息。
  • 地区查询:例如“澳大利亚的护眼标准是什么?” → 返回 AS/NZS 1337.1 及全球等效标准。

使用方式

python from datasets import load_dataset ds = load_dataset("SmartQHSE/hse-standards-crosswalk") for row in ds["train"]: print(row["topic"], "→", row.get("iso") or row.get("iec") or row.get("osha"))

相关数据集

该数据集属于 SmartQHSE 开放 HSE 数据系列,同系列还包括:

  • hse-regulators-directory(监管机构目录)
  • hse-glossary(术语表)
  • hse-regulations-changelog(法规变更日志)
  • hse-benchmarks-2026(安全绩效基准)
  • osha-rates-2026(OSHA 事故率)
  • hse-qa-corpus(HSE 问答对)
  • major-process-safety-incidents-2026(重大工艺安全事故数据库)
  • 等 13 个以上数据集。

引用信息

SmartQHSE Ltd (2026). HSE Standards Crosswalk [dataset]. https://huggingface.co/datasets/SmartQHSE/hse-standards-crosswalk

构建方

SmartQHSE 构建,许可证 CC BY 4.0。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统性地梳理20个核心职业健康安全与环境(HSE)主题领域,构建了跨主要标准体系的交叉映射关系。每个主题行均包含ISO国际标准、IEC电气标准、ANSI/ASSP美国自愿性标准、AS/NZS澳新标准、OSHA美国联邦法规、EN欧洲协调标准、NIOSH建议、行业协会标准以及区域法规等多维度的对应条目。当某标准体系缺乏等效标准时,相应字段明确标注为null,以此清晰揭示标准体系间的覆盖空白。数据集同时引入了Wikidata标识符,增强了标准的可追溯性和互操作性。
特点
本数据集的核心特质在于其多维交叉映射架构,能够精准回答诸如“OHSAS 18001的OSHA等效标准是什么”这类跨体系溯源问题。它覆盖了从管理体系(ISO 45001)、过程安全管理(OSHA 29 CFR 1910.119)到个人防护装备(ANSI/ISEA Z87.1)等广泛领域,每一行均浓缩了同一主题在全球不同监管框架下的等效关系。显著的开放性标志(null值)使标准缺失情况一目了然,为合规分析和差距评估提供了直观依据。
使用方法
数据集可通过HuggingFace的datasets库便捷加载,使用Python代码即可快速访问。用户执行`load_dataset('SmartQHSE/hse-standards-crosswalk')`后,遍历训练集即可获取每个主题及其对应的各体系标准编号。典型应用场景包括检索增强生成(RAG)系统中的标准问答,例如查询某国某类标准的等效文件,或比较不同法规对同一安全要素的要求。数据集还提供了配套的监管机构目录和术语表,方便进行更深入的合规知识图谱构建。
背景与挑战
背景概述
在全球职业健康与安全(HSE)管理领域,各类标准体系庞杂且地域性强,如国际ISO标准、美国OSHA法规、欧盟EN标准等,彼此之间存在术语差异与条款不对应问题,导致组织在合规审计、体系迁移及跨国运营中面临巨大的信息检索成本。为此,SmartQHSE公司于2026年发布了HSE Standards Crosswalk数据集,构建了一张涵盖20个核心HSE主题的“标准交叉参照表”,将ISO 45001、OSHA 29 CFR 1910、IEC 61511等主要标准家族的等效条款进行结构化映射。该数据集由SmartQHSE团队精心编纂,其核心研究问题在于如何利用结构化知识图谱消除标准间的语义隔阂,支持大型语言模型在合规问答、风险对标等场景中的精准检索。作为开放HSE数据生态的核心组件,它为构建新一代智能化HSE合规助手奠定了关键基础。
当前挑战
该数据集所解决的领域挑战在于标准体系间的碎片化与术语歧义——例如企业常需在OHSAS 18001、ISO 45001与ANSI/ASSP Z10之间进行等效性比对,但传统方法依赖人工查阅数百页标准文档,效率低下且易出错。在构建过程中,团队需面对两大具体挑战:其一,标准家族覆盖全球数十个法规体系,同一主题在不同标准中的表述深度与适用范围各异(如OSHA对管理体系仅列出可执行框架而无专属标准),需要精准识别“无等效项”并标记为显式空缺;其二,标准版本更新频繁,例如OHSAS 18001于2021年被ISO 45001取代,数据集中需保证引用时效性,同时为每个标准关联维基数据ID以支持动态追踪。此外,跨标准间的字段映射还需协调法律级差(强制法规与自愿性标准)和区域差异(如澳大利亚AS/NZS与欧洲EN的防护装备要求)。
常用场景
经典使用场景
在职业健康、安全与环境管理(HSE)这一高度依赖标准化合规的领域中,hse-standards-crosswalk数据集扮演着关键的知识对齐角色。其经典应用场景是为智能检索与问答系统提供结构化的跨标准映射能力,使大型语言模型能够精准回答诸如“某国际标准在特定国家或行业中的等效规范是什么”这一类的复杂问题。通过将20个核心HSE主题与ISO、OSHA、ANSI等主要标准族进行逐一对照,该数据集特别适用于构建基于检索增强生成(RAG)的合规查询工具,帮助HSE人员快速理解不同管辖区域之间法规的对应关系与差异。
解决学术问题
该数据集有效解决了学术研究中跨标准体系映射这一长期存在的结构性难题。在比较法、职业安全法规演进及标准化协同效率等研究领域,研究者常因各标准族文档结构迥异而难以进行系统化比对。hse-standards-crosswalk通过建立显式的交叉索引,不仅明确了不同标准在主题覆盖上的对应关系,更通过标注‘null’来清晰揭示各个体系内存在的监管空白。这为定量分析各国法规成熟度、研究标准趋同与分化趋势提供了可靠的数据基础,推动了标准化对比研究从经验定性向数据驱动范式的转变。
衍生相关工作
围绕该数据集,已衍生出一系列重要的学术与技术工作。在数据生态层面,SmartQHSE团队发布了配套的监管机构目录、术语表和法规变更日志等关联数据集,共同构成了开放HSE数据的基础设施。在应用研究层面,基于该数据集开展的RAG系统评估、跨标准知识图谱构建以及法规演化预测建模等工作相继涌现,其中对ISO 45001替代OHSAS 18001后各国内化进程的定量追踪研究已成为标准化管理领域的典范案例。这些衍生工作不仅验证了数据集本身的可靠性,更推动了HSE领域知识工程方法论的系统性发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作