hse-instruction-tuning

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/SmartQHSE/hse-instruction-tuning

下载链接

链接失效反馈

官方服务：

资源简介：

SmartQHSE HSE 指令微调语料库是一个专门针对健康、安全与环境（HSE/EHS）领域设计的指令微调数据集。它基于SmartQHSE HSE 问答语料库构建，采用Alpaca风格变体，用于HSE领域大型语言模型和检索增强生成系统的监督式微调或LoRA训练。数据来源于SmartQHSE平台的权威问答知识库，通过实时REST API获取。每个数据样本遵循标准的指令微调格式，包含instruction（提出的HSE相关问题）、input（通常为空字符串）、output（包含引用来源的权威性长篇幅答案）、category（问题所属的法规或标准分类，如“us-osha”）以及source_url（指向原始权威答案页面的链接）。数据集规模小于1,000个样本，内容广泛覆盖HSE领域的多个关键主题，包括：美国OSHA法规（如过程安全管理标准1910.119、重点四大危害、OSHA 300A记录保存、上锁挂牌标准1910.147）、API标准（如API RP 754过程安全指标、API 580基于风险的检测）、国际管理体系标准（ISO 45001、ISO 14001、ISO 9001）、加州Cal/OSHA特定法规（如SB 553工作场所暴力、§3395热病预防），以及工作安全分析、主要泄漏事故、风险评估、作业许可证、控制层级等核心HSE实践概念。数据集以JSON Lines和JSON数组两种格式提供，采用CC BY 4.0许可，允许在注明出处的前提下用于商业目的的模型微调。发布此开放数据集的动机是促进HSE专业知识的可及性，打破行业数据壁垒。

The SmartQHSE HSE Instruction Tuning Corpus is a specialized instruction tuning dataset designed for the Health, Safety, and Environment (HSE/EHS) domain. It is an Alpaca-style variant built upon the SmartQHSE HSE Question-Answering Corpus, intended for supervised fine-tuning or LoRA training of large language models and retrieval-augmented generation systems in the HSE field. Data is sourced from the authoritative Q&A knowledge base of the SmartQHSE platform via its real-time REST API. Each data sample follows a standard instruction tuning format, including fields: `instruction` (the HSE-related question posed), `input` (typically an empty string), `output` (a long-form authoritative answer with citation sources), `category` (the regulation or standard classification of the question, e.g., us-osha), and `source_url` (a link to the original authoritative answer page). The dataset contains fewer than 1,000 samples and broadly covers key HSE topics, including: US OSHA regulations (e.g., Process Safety Management Standard 1910.119, Focus Four Hazards, OSHA 300A recordkeeping, Lockout/Tagout Standard 1910.147), API standards (e.g., API RP 754 Process Safety Indicators, API 580 Risk-Based Inspection), international management system standards (ISO 45001, ISO 14001, ISO 9001), California Cal/OSHA-specific regulations (e.g., SB 553 Workplace Violence, §3395 Heat Illness Prevention), and core HSE practice concepts such as Job Safety Analysis, major leak incidents, risk assessment, work permits, and the hierarchy of controls. The dataset is provided in both JSON Lines and JSON array formats, under a CC BY 4.0 license, allowing commercial use for model fine-tuning with attribution. The motivation for releasing this open dataset is to enhance accessibility to HSE expertise and break down industry data barriers.

创建时间：

2026-05-04

搜集汇总

数据集介绍

构建方式

该数据集是基于SmartQHSE HSE问答语料库进行Alpaca风格指令微调改造而来。原始数据源自SmartQHSE平台的REST API实时接口，每一条记录都保留了规范的微调架构，包含指令、输入、输出、类别及来源网址等字段。数据以JSONL和JSON两种格式存储，每个样本中的输出均为带有引证的权威长文解答，从而为安全与健康领域的语言模型提供了高质量的监督式微调素材。

特点

数据集覆盖了美国OSHA职业安全管理、ISO 45001/14001/9001管理体系、API工艺安全标准、加州Cal/OSHA法规以及作业安全分析、风险评估等核心主题。每条记录均提供源链接以追溯原始权威页面，且数据均通过CC BY 4.0许可发布，允许商业使用并支持属性标注。此外，数据集与多个相关语料库形成互补，构建了一个完整的职业安全与健康知识生态。

使用方法

利用HuggingFace Datasets库可直接加载该语料库进行训练，典型的使用场景包括LoRA轻量微调或全参数监督微调。用户可将指令与输出字段按Alpaca格式模板进行拼接，形成结构化的训练文本。该数据集亦适用于构建检索增强生成系统，配合矢量数据库实现对职业安全与健康法规等专业知识的实时检索与回答生成。

背景与挑战

背景概述

在职业健康、安全与环境管理领域，法规标准繁杂且更新频繁，从业人员常需依赖昂贵会员制渠道或分散的官方文档获取权威信息，知识壁垒显著。为弥合这一鸿沟，SmartQHSE平台于2026年发布了HSE Instruction-Tuning语料库，由SmartQHSE有限公司主导构建，核心研究问题在于如何利用指令微调技术，使大语言模型能够精准回答涵盖美国OSHA、ISO 45001、API标准及加州Cal/OSHA等多元管辖区的安全与健康问题，从而降低行业知识获取门槛。该数据集作为Alpaca风格指令微调版本，衍生于SmartQHSE HSE问答语料库，每条数据均附有权威引用与来源链接，直接服务于HSE领域专用语言模型与检索增强生成系统的开发，推动了安全工程与自然语言处理的交叉研究，对工业安全管理数字化进程具有里程碑意义。

当前挑战

该数据集面临的挑战主要体现在两方面。其一，所解决的领域问题极具复杂性：HSE（健康、安全与环境）法规跨越美国联邦OSHA、国际ISO标准、地方性条例及行业协会推荐做法，数量庞大、层级交错且频繁更新，传统检索方式低效易错，亟需构建能理解专业术语、区分管辖差异并精准引用来源的智能问答系统，这对模型的事实一致性与权威性提出了严苛要求。其二，语料库构建过程中，需从45余个公开API端点持续抓取、清洗与结构化长格式问答对，确保每项回复均基于真实法规条款，并克服跨标准体系（如OSHA与ISO 45001）的语义对齐难题；同时，数据规模偏小（不足千条）与类别均衡性维护也为指令微调带来了过拟合风险，需通过扩展相关数据集与设计针对性评测基准来缓解。

常用场景

经典使用场景

在健康、安全与环境（HSE）领域，指令微调是构建领域专用大语言模型的核心技术路径。hse-instruction-tuning数据集遵循Alpaca格式的指令-输出范式，为HSE领域的语言模型提供了精细化的监督式微调（SFT）训练资源。研究者可借助该数据集，采用LoRA等参数高效微调方法，使通用语言模型精准掌握OSHA法规、ISO管理体系及工艺安全等专业知识的问答能力，从而打造出能够解读复杂安全规范、提供权威答案的HSE领域专家模型。

解决学术问题

该数据集有效解决了通用大语言模型在HSE专业领域知识匮乏、答案缺乏法规溯源验证的学术瓶颈。通过系统化覆盖美国OSHA工艺安全管理、ISO 45001职业健康安全标准、加州Cal/OSHA特殊规定等跨司法管辖区的内容，并确保每条答案均附有权威来源URL，数据集为研究低资源场景下的领域知识注入、法规合规性自然语言生成、以及基于检索增强生成（RAG）的可解释问答系统提供了标准化的训练与评估基准，显著推动了安全工程与自然语言处理的交叉学科发展。

衍生相关工作

基于该数据集，研究社区已衍生出一系列具有代表性的相关工作。例如，同源的hse-qa-corpus提供了问答对原始版本，而hse-glossary构建了权威术语定义词典，两者共同组成了HSE领域知识增强的基础设施。更重要的是，hse-benchmarks-2026数据集为评估微调模型的性能提供了跨国家、跨行业的基准指标，使得不同模型间的对比具有可复现的量化标准。此外，major-process-safety-incidents-2026数据集收录了博帕尔、墨西哥湾深水地平线等重大工艺安全事故案例，可用于构建事故根因分析的语言模型，拓展了安全领域中案例分析自动化的应用边界。

以上内容由遇见数据集搜集并总结生成