hse-qa-corpus

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/SmartQHSE/hse-qa-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

SmartQHSE HSE Q&A Corpus 是一个专注于健康、安全与环境（HSE）及职业安全领域的问答数据集。该数据集包含 24 个长格式的问答对，覆盖了 15 个核心 HSE 类别，包括事故率计算、ISO 45001 标准、作业许可证、风险评估、美国 OSHA 法规、英国 HSE 法规、海湾合作委员会（GCC）法规、个人防护装备（PPE）、热应激、职业暴露、人体工程学、事故调查、安全培训以及 HSE 软件等。每个答案均为结构化的多段落文本，并附有详细的引用来源、计算公式以及 OSHA 或其他相关法规的具体参考条款，确保了信息的权威性和可追溯性。数据集规模较小（n<1K），计划每季度进行扩展。数据主要来源于美国劳工统计局、OSHA、英国 HSE、欧盟委员会、国际石油天然气生产商协会、国际劳工组织等权威机构，经整合后以 CC BY 4.0 许可证发布。该数据集适用于自然语言处理任务，特别是问答系统的指令微调、检索增强生成以及长文本生成。需要注意的是，数据集目前仅包含英文内容，存在一定的地理和行业偏见，更侧重于美国、英国、阿联酋等地的法规以及建筑、石油天然气和制造业，且答案内容具有时效性，使用时建议核对最新法规。

SmartQHSE HSE Q&A Corpus is a question-answering dataset focused on Health, Safety, and Environment (HSE) and occupational safety domains. It contains 24 long-form question-answer pairs covering 15 core HSE categories, including accident rate calculation, ISO 45001 standards, work permits, risk assessment, U.S. OSHA regulations, UK HSE regulations, Gulf Cooperation Council (GCC) regulations, personal protective equipment (PPE), heat stress, occupational exposure, ergonomics, accident investigation, safety training, and HSE software. Each answer is structured in multiple paragraphs with detailed citations, calculation formulas, and specific references to OSHA or other relevant regulations, ensuring authority and traceability. The dataset is small in scale (n<1K) and planned for quarterly expansion. Data is primarily sourced from authoritative institutions such as the U.S. Bureau of Labor Statistics, OSHA, UK HSE, European Commission, International Association of Oil and Gas Producers, and International Labour Organization, and is released under the CC BY 4.0 license after integration. It is suitable for natural language processing tasks, particularly instruction fine-tuning for question-answering systems, retrieval-augmented generation, and long-text generation. Note that the dataset currently contains only English content, has certain geographical and industry biases, with a focus on regulations in the U.S., UK, UAE, and industries like construction, oil and gas, and manufacturing, and the answers are time-sensitive, so it is recommended to verify the latest regulations when using it.

创建时间：

2026-05-03

搜集汇总

数据集介绍

构建方式

在职业安全与健康（HSE）领域，高质量、可溯源的问答数据对于构建专业级大语言模型至关重要。SmartQHSE HSE Q&A Corpus 的构建基于对全球权威监管机构与行业标准的系统性梳理，涵盖美国 OSHA、英国 HSE、GCC 地区法规以及 ISO 45001 等核心框架。数据集由 HSE 领域专家精心设计了 24 组长格式问答对，覆盖事故率计算、风险评估、个人防护装备、热应激、人机工程学等 15 个关键类别。每一条答案均采用多段落结构，明确标注了引用的官方来源、计算公式及具体法规条款，确保内容的专业性与可验证性。数据以 JSONL、JSON 和 CSV 三种格式发布，便于不同技术背景的用户直接使用。

特点

该数据集最显著的特点在于其高度的专业性与权威性。每一条问答均源自美国劳工统计局、职业安全与健康管理局、国际石油与天然气生产者协会等官方数据源，并经过专家整合与校验。答案采用长文本形式，提供深入的行业见解而非简单定义，适合用于指令微调与检索增强生成任务。数据集中包含具体的事故率计算公式与 OSHA 监管参考，使其在构建面向安全工程师、合规专家等专业人士的 AI 系统时具有独特价值。尽管当前版本仅含 24 条语料，但其精心的分类设计涵盖了建筑、石油天然气、制造等高风险行业的核心议题，为垂直领域赋予了量身定制的训练资源。

使用方法

该数据集提供了多种便捷的使用方式。开发者可直接通过 HuggingFace Datasets 库加载数据，仅需一行代码 `load_dataset("SmartQHSE/hse-qa-corpus")` 即可获得结构化的训练数据。同时，SmartQHSE 平台提供了基于 REST API 的实时访问接口，支持参数筛选，无需认证即可通过 `curl` 命令获取数据。数据文件还提供了 CSV 格式，方便使用电子表格工具进行分析。由于数据集以英文发布并采用 CC BY 4.0 许可，用户可自由用于商业用途，只需遵循署名要求。需要注意的是，该数据集规模较小且存在地域与行业偏差，用户应在关键应用场景中通过数据中的 `canonical_url` 和 `last_updated` 字段核查最新法规信息。

背景与挑战

背景概述

在职业健康与安全（HSE）领域，专业问答数据集的匮乏长期制约着人工智能技术的深入应用，尤其是对监管标准、事故率计算与合规指南等复杂知识的精准获取。由SmartQHSE团队于2026年发布的SmartQHSE HSE Q&A Corpus，正是为填补这一空白而构建。该数据集包含24个涉及15个类别的高质量长文本问答对，覆盖事故率、ISO 45001、OSHA法规、热应激暴露等关键主题，每个答案均附有权威引用与计算公式。作为首个面向HSE领域指令微调与检索增强生成的公开语料，其在推动工业安全智能化的进程中具有里程碑意义。

当前挑战

该数据集面临的核心挑战在于所解决的领域问题具有高度复杂性：HSE问答需严格遵循跨国家、跨行业的法规体系（如美国OSHA、英国HSE、阿联酋OSHAD-SF），且法规持续更新，对模型的事实一致性与时效性提出极高要求。构建过程中，团队需从BLS、NIOSH、ISO等多个源头手动整合并验证数据，但受限于当前仅24条记录的规模，样本多样性不足，存在显著的地域偏向（聚焦美国与海湾地区）与行业偏向（集中在建筑、油气与制造业），且仅为英文版本，限制了其在亚太、拉美等地区的泛化能力。

常用场景

经典使用场景

在职业安全与健康（HSE）领域，该数据集最经典的用途在于为大型语言模型的指令微调与检索增强生成（RAG）提供高质量的领域专精语料。其包含的24组长格式问答对，覆盖事故率计算、ISO 45001管理体系、许可作业、风险评估等15个核心主题，每项回答均附有来自OSHA、UK HSE、GCC法规等权威来源的引用与计算公式，使之成为构建HSE垂直领域智能问答系统的理想训练资源。

衍生相关工作

由此数据集衍生了一系列里程碑式的工作，包括基于其问答对扩展构建的指令调优数据集hse-instruction-tuning，以及专注于事故率计算的基准集hse-benchmarks-2026与osha-rates-2026。研究团队还利用其引文结构开发了多标准法规交叉映射数据集（hse-standards-crosswalk），并与开源RAG框架集成以测试跨语言（尤其是阿拉伯语规划版）的安全知识检索效果。这些衍生资源共同构成了全球首个开放HSE知识生态系统，为后续生成式安全分析、合规变化追踪乃至因果推断驱动的风险模型提供了基石。

数据集最近研究