five

ChemSafetyBench|化学数据集|AI安全数据集

收藏
arXiv2024-11-23 更新2024-11-28 收录
化学
AI安全
下载链接:
https://github.com/HaochenZhao/SafeAgent4Chem
下载链接
链接失效反馈
资源简介:
ChemSafetyBench是由北京大学、耶鲁大学等机构联合创建的一个用于评估大型语言模型(LLMs)在化学领域安全性的基准数据集。该数据集包含超过30,000条样本,涵盖了化学物质的属性查询、使用合法性评估和合成方法描述等任务。数据集通过手工模板和高级越狱场景来增强任务的多样性,旨在全面评估LLMs在处理危险化学信息时的安全性和准确性。ChemSafetyBench的应用领域主要集中在化学领域的AI技术安全开发,旨在解决LLMs在生成科学不正确或不安全响应的问题。
提供机构:
北京大学、耶鲁大学、四川大学、中国农业大学、浙江大学、Meta GenAI
创建时间:
2024-11-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChemSafetyBench的构建基于化学领域的知识库和监管标准,通过手动收集化学数据,精心构建了一个包含超过30,000个条目的数据集。该数据集覆盖了大多数受控化学物质的性质、用途和关键合成反应,确保了评估场景的准确性和相关性。此外,开发了一个自动化评估管道,不仅利用收集的化学知识,还使用GPT作为判断工具,系统地分析LLM在化学安全敏感领域的响应,从正确性、拒绝性和安全/质量权衡三个角度进行评估,提供了一种可扩展且一致的安全评估方法。
使用方法
ChemSafetyBench的使用方法包括三个主要任务:查询化学性质、评估化学用途的合法性以及描述合成方法。每个任务都需要LLM具备不同深度的化学知识。数据集提供了详细的评估指标和方法,包括正确性检查、拒绝检测和使用GPT-4作为判断工具进行全面评估。研究者可以通过访问提供的代码和数据集链接,进行实验和评估,以验证和改进LLM在化学领域的安全性和准确性。
背景与挑战
背景概述
随着大型语言模型(LLMs)在科学研究辅助中的广泛应用,其在化学领域的潜力日益凸显。然而,这些模型在生成科学上不准确或不安全的响应时,可能会鼓励用户从事危险行为。为应对化学领域中的这一问题,由北京大学、耶鲁大学等多所知名机构的研究人员共同开发了ChemSafetyBench数据集。该数据集旨在评估LLMs在化学领域中的准确性和安全性,涵盖了查询化学性质、评估化学用途的合法性以及描述合成方法等关键任务。ChemSafetyBench包含超过30,000个样本,通过手工模板和高级越狱场景来增强任务多样性,旨在成为开发化学领域更安全AI技术的关键工具。
当前挑战
ChemSafetyBench数据集面临的挑战主要集中在两个方面:一是解决化学领域中LLMs生成不安全或不准确响应的问题,这需要模型具备深入的化学知识;二是数据集构建过程中遇到的挑战,包括如何确保数据集的多样性和覆盖面,以及如何设计有效的评估框架来全面评估模型的安全性、准确性和适当性。此外,数据集还需要应对模型在处理危险化学信息时的潜在漏洞,确保在复杂场景下的鲁棒性。
常用场景
经典使用场景
ChemSafetyBench数据集的经典使用场景在于评估大型语言模型(LLMs)在化学领域中的安全性和准确性。该数据集通过涵盖化学性质查询、化学用途合法性评估以及合成方法描述等三大任务,全面测试LLMs在处理化学信息时的表现。这些任务不仅要求模型具备深厚的化学知识,还需在生成响应时确保安全性和合规性,从而为开发更安全的AI技术提供关键支持。
解决学术问题
ChemSafetyBench数据集解决了当前LLMs在处理化学信息时存在的安全性和准确性问题。通过提供超过30,000个样本的多样化数据,该数据集能够系统地评估模型在处理危险化学品信息时的表现,揭示其在科学不准确或不安全响应方面的潜在风险。这不仅有助于识别和修复模型的漏洞,还为学术界提供了一个标准化的评估框架,推动了LLMs在化学领域中的安全应用研究。
实际应用
ChemSafetyBench数据集在实际应用中主要用于开发和测试化学领域的AI助手和智能系统。这些系统需要能够安全、准确地处理化学查询,避免提供可能导致危险行为的错误信息。例如,在化学实验室、制药公司和环境监测机构中,AI助手可以利用该数据集进行训练和验证,确保其在提供化学信息时遵循安全规范,从而减少潜在的风险和事故。
数据集最近研究
最新研究方向
在化学领域,大型语言模型(LLMs)的应用日益广泛,但其生成的科学性错误或不安全响应问题也日益凸显。为此,最新研究方向聚焦于开发和评估LLMs在化学领域的安全性和准确性。ChemSafetyBench作为一个前沿基准,旨在通过评估LLMs在查询化学性质、评估化学用途合法性及描述合成方法等任务中的表现,来识别和解决这些模型在处理危险化学信息时的潜在风险。该研究不仅强调了现有模型的显著优势和关键漏洞,还提出了开发更安全AI技术的需求,特别是在化学领域中,确保AI技术的应用不会导致科学错误或鼓励危险行为。
相关研究论文
  • 1
    ChemSafetyBench: Benchmarking LLM Safety on Chemistry Domain北京大学、耶鲁大学、四川大学、中国农业大学、浙江大学、Meta GenAI · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录