LabSafety_Bench

Hugging Face2024-10-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yujunzhou/LabSafety_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

LabSafety Bench是一个专门设计的基准，用于评估大型语言模型（LLMs）在实验室安全环境中的可信度。该数据集包含765个多选题，符合职业安全与健康管理局（OSHA）的协议，并分为四个关键领域：危险物质、应急响应、责任与合规、设备和材料处理。其中632个问题是纯文本的，133个问题是多模态的（文本和图像），允许对语言模型和视觉语言模型进行全面评估。数据集分为四个部分：'QA'（632个纯文本示例）、'QA_I'（133个多模态问题）、'sampledQA'（80个纯文本示例，用于人类评估或资源有限的情况）、'sampledQA_I'（20个多模态示例，用于人类评估或资源有限的情况）。

创建时间：

2024-10-19

原始信息汇总

LabSafety Bench 数据集概述

数据集描述

LabSafety Bench 是一个专门用于评估大型语言模型（LLMs）在科学实验室安全环境中可靠性的基准。该数据集包含 765 个多项选择题，符合职业安全与健康管理局（OSHA）的协议，并按以下关键实验室安全领域分类：

危险物质
应急响应
责任与合规
设备与材料处理

其中，632 个问题为纯文本，133 个问题为多模态（文本和图像），以便全面评估语言模型和视觉语言模型。

数据集结构

特征

Question: 问题，数据类型为字符串。
Explanation: 解释，数据类型为字符串。
Correct Answer: 正确答案，数据类型为字符串。
Category: 类别，数据类型为字符串序列。
Topic: 主题，数据类型为字符串。
Level: 级别，数据类型为字符串。
Decoded Image: 解码图像，数据类型为图像。
Image Path: 图像路径，数据类型为字符串。

数据分割

QA: 包含 632 个纯文本示例，用于标准评估。
QA_I: 包含 133 个多模态问题，用于标准评估。
sampledQA: 包含 80 个纯文本示例，用于人类评估、验证或计算资源有限的情况。
sampledQA_I: 包含 20 个多模态示例，用于人类评估、验证或计算资源有限的情况。

数据大小

下载大小: 11873461 字节
数据集大小: 21679790.0 字节

数据集使用

数据下载

通过以下命令下载数据集（确保已安装 Huggingface Datasets）：

python from datasets import load_dataset

加载所有分割

dataset = load_dataset("yujunzhou/LabSafety_Bench")

加载特定分割

QA_dataset = load_dataset(yujunzhou/LabSafety_Bench, split=QA)

模型评估

如需在数据集上评估模型，请参考 GitHub 仓库。

免责声明

该数据集旨在评估大型语言模型在科学实验室环境中的安全意识。尽管数据集中的问题尽可能全面地涵盖了实验室中的常见安全问题，但不应将其性能视为模型在实际应用中安全的保证。用户在使用数据集中的信息前应自行验证其准确性。

引用

如在研究或项目中使用此数据集，请按以下方式引用：

搜集汇总

数据集介绍

构建方式

LabSafety_Bench数据集的构建基于实验室安全的关键领域，涵盖了危险物质、应急响应、责任与合规性以及设备与材料处理等主题。该数据集包含765道多项选择题，均与职业安全与健康管理局（OSHA）协议保持一致。其中，632道为纯文本问题，133道为多模态问题（文本与图像结合），旨在全面评估语言模型和视觉语言模型在实验室安全环境中的可靠性。

特点

LabSafety_Bench数据集的特点在于其多样性和全面性。它不仅包含纯文本问题，还引入了多模态问题，结合了文本与图像信息，能够更真实地模拟实验室环境中的复杂场景。此外，数据集按照难度分为“简单”和“困难”两个级别，便于不同层次的研究需求。每个问题均附有详细解释，帮助用户理解正确答案的依据，并提供了问题所属的类别、主题和图像路径等元数据。

使用方法

LabSafety_Bench数据集的使用方法灵活多样。用户可以通过Huggingface Datasets库加载数据集，支持加载全部数据或特定分割（如纯文本或多模态问题）。每个数据项以字典形式呈现，包含问题、正确答案、解释、类别、主题、难度级别、图像路径和解码图像等信息。该数据集适用于评估语言模型和视觉语言模型在实验室安全场景中的表现，用户可参考GitHub仓库中的指南进行模型评估。

背景与挑战

背景概述

实验室安全是科学研究中不可忽视的重要环节，直接关系到人员生命和资源的保护。随着大语言模型（LLMs）在多个领域的广泛应用，其在安全关键环境中的可靠性问题逐渐引起关注。2024年，由Yujun Zhou等研究人员创建的LabSafety_Bench数据集应运而生，旨在评估LLMs在实验室安全场景中的可信度。该数据集包含765道多项选择题，涵盖危险物质、应急响应、责任与合规、设备与材料处理等关键领域，并依据美国职业安全与健康管理局（OSHA）协议设计。其中，632道为纯文本问题，133道为多模态问题（文本与图像结合），为全面评估语言模型和视觉语言模型提供了基准。

当前挑战

LabSafety_Bench数据集在解决实验室安全问题的同时，也面临诸多挑战。首先，实验室安全涉及广泛且复杂的知识领域，如何确保问题覆盖全面且具有代表性是一大难题。其次，多模态问题的构建需要高质量的图像数据与文本内容的精准匹配，这对数据收集和标注提出了更高要求。此外，评估LLMs在安全关键场景中的表现时，如何避免模型在数据集上的过拟合，并确保其在实际应用中的泛化能力，仍需深入研究。最后，数据集的规模相对较小，可能限制了其在复杂场景下的评估效果，未来需要进一步扩展和优化。

常用场景

经典使用场景

LabSafety_Bench数据集在评估大型语言模型（LLMs）在科学实验室环境中的安全性意识方面具有重要应用。通过包含765道与职业安全与健康管理局（OSHA）协议一致的多项选择题，该数据集能够全面测试模型在处理实验室安全相关问题的能力。特别是其中的133道多模态问题，结合了文本和图像信息，为评估视觉-语言模型提供了独特的机会。

实际应用

在实际应用中，LabSafety_Bench数据集被广泛用于培训和教育实验室工作人员，帮助他们识别和应对潜在的安全风险。此外，该数据集还被用于开发智能助手和自动化系统，以在实验室环境中提供实时的安全建议和指导。通过结合多模态数据，这些系统能够更准确地理解和响应复杂的安全场景，从而减少事故发生的可能性。

衍生相关工作

LabSafety_Bench数据集的发布催生了一系列相关研究，特别是在多模态模型和LLMs的交叉领域。许多研究团队利用该数据集开发了新的评估方法和模型架构，以提升模型在实验室安全任务中的表现。此外，该数据集还激发了关于LLMs在安全关键环境中应用的广泛讨论，推动了相关领域的技术进步和标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集