HSE-Bench

Name: HSE-Bench
Creator: 新南威尔士大学（University of New South Wales）和数据61，CSIRO（Data61, CSIRO）
Published: 2025-05-29 09:02:53
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/Joysouo/hse-bench, https://github.com/mengqiwang1/hse-bench

下载链接

链接失效反馈

官方服务：

资源简介：

HSE-Bench是一个用于评估大型语言模型在健康、安全和环境（HSE）合规性评估方面的能力的基准数据集。该数据集包含超过1000个经过人工筛选的问题，这些问题来源于法规、法庭案例、安全考试和现场工作视频。数据集采用了基于IRAC框架（问题识别、规则回忆、规则应用和规则结论）的推理流程，以评估整体的推理流程。HSE-Bench的创建旨在解决HSE领域决策智能和情境对话的需求，通过将多种数据来源和多模态数据整合到一个统一的推理过程中，为HSE合规性评估提供了一个全面的评估框架。

HSE-Bench is a benchmark dataset developed to evaluate the capabilities of large language models (LLMs) in health, safety, and environmental (HSE) compliance assessment. This dataset contains over 1,000 manually curated questions sourced from regulations, court cases, safety examinations, and on-site work videos. It adopts an IRAC framework-based reasoning workflow, namely Issue Identification, Rule Recall, Rule Application, and Rule Conclusion, to assess the overall reasoning process. HSE-Bench was created to address the demands of decision intelligence and contextual dialogue in the HSE domain. By integrating diverse data sources and multimodal data into a unified reasoning process, it provides a comprehensive evaluation framework for HSE compliance assessment.

提供机构：

新南威尔士大学（University of New South Wales）和数据61，CSIRO（Data61, CSIRO）

创建时间：

2025-05-29

搜集汇总

数据集介绍

构建方式

HSE-Bench数据集通过两阶段构建流程精心设计而成。首先基于IRAC（Issue spotting, rule Recall, rule Application, rule Conclusion）法律推理框架，从法规文本、法院案例、安全考试和现场视频四大权威来源生成结构化问题。随后采用对抗性上下文增强策略，通过GPT-4o引入干扰选项、增加逻辑复杂性并移除敏感信息，最终由两位专家进行双重人工校验。这种构建方法确保了数据集的场景多样性和推理严谨性，覆盖了健康安全环境（HSE）合规评估的全流程。

特点

该数据集包含1,020个经过严格标注的IRAC格式问题，涵盖澳大利亚、中国等多元司法管辖区的HSE场景。其显著特点体现在多模态数据整合（文本与视频描述）、对抗性干扰选项设计以及四阶段法律推理链标注。问题平均长度随推理阶段递进增加，规则应用环节达97.98词，凸显复杂情境下的合规分析需求。数据集特别强化了现实场景中的模糊责任界定、部分合规等边缘案例，为评估大语言模型的深层次法律推理能力提供了精准标尺。

使用方法

使用HSE-Bench时建议采用三阶段评估框架：首先通过标准提示策略（Zero-shot/Few-shot）测试模型的基础合规知识检索能力；继而采用思维链（CoT）提示评估分步推理质量；最终应用本研究提出的专家推理模拟（RoE）技术，要求模型模拟安全工程师、法律顾问等不同角色的推理过程并达成共识决策。评估指标推荐同时采用准确率与AUC-ROC，以区分模型的语义匹配能力与真实法律理解水平。对于视频模态问题，可先通过多模态模型生成文本描述再输入纯文本LLM进行评估。

背景与挑战

背景概述

HSE-Bench是由新南威尔士大学和CSIRO Data61的研究团队于2025年推出的首个专注于健康、安全与环境（HSE）合规性评估的基准数据集。该数据集包含超过1,000个手工筛选的问题，涵盖法规、法院案例、安全考试和实地工作视频等多模态数据源，并采用IRAC（问题识别、规则回忆、规则应用和规则结论）框架来评估大型语言模型（LLM）的合规性推理能力。HSE-Bench的创建填补了LLM在特定领域知识及结构化法律推理评估方面的空白，为高风险的工业场景如建筑、制造和医疗保健提供了可靠的模型性能验证工具。

当前挑战

HSE-Bench面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，HSE合规性评估涉及动态实时决策，需处理复杂法规和人机环境交互，而现有LLM依赖语义匹配而非基于合规上下文的系统性推理。在构建过程中，挑战包括：1) 多源数据整合（如视频记录与文本描述的跨模态统一理解）；2) 高风险场景的细粒度分析需求；3) 多步骤法律推理（如问题定位与法规追溯）导致的基准构建复杂性。此外，对抗性增强阶段需确保生成问题的逻辑严谨性，同时排除敏感信息，这对人工校验提出了更高要求。

常用场景

解决学术问题

HSE-Bench有效解决了LLMs在专业领域知识评估中的三大核心问题：一是填补了HSE合规性评估领域缺乏系统性基准的空白；二是揭示了当前模型依赖语义匹配而非原则性法律推理的局限性；三是通过IRAC框架量化了模型在多步骤法律推理中的表现差异。该数据集推动了针对垂直领域LLMs评估方法学的发展，为提升模型在高风险场景下的可靠决策提供了理论依据。

衍生相关工作

该数据集催生了多项重要研究：1）专家推理提示技术（RoE）通过模拟多角色专家协同决策，将DeepSeek-R1的准确率提升25.01%；2）启发式构建了HSE知识增强的模型微调范式；3）衍生出跨模态合规性评估框架，如结合视觉LLMs的工地安全监测系统。相关成果发表在NeurIPS等顶会，并推动LegalBench等跨领域评估基准的方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集