five

Scientific Refusal Test benchmark

收藏
arXiv2025-02-08 更新2025-02-13 收录
下载链接:
https://github.com/forrestmckee/ScientificRefusalTest
下载链接
链接失效反馈
官方服务:
资源简介:
Scientific Refusal Test benchmark是一个由PeopleTec公司创建的开源数据集,包含512个科学拒绝问题,旨在评估大型语言模型在面对可能具有双重用途的科学查询时的安全性机制。这些问题涵盖了环境科学、计算机科学和药理学等领域,旨在揭示模型在敏感领域的内在限制和防护措施。该数据集可用于系统评估AI安全性的进展,并提供了对AI安全性机制潜在脆弱性的深入分析。

The Scientific Refusal Test benchmark is an open-source dataset created by PeopleTec, Inc. It contains 512 scientific refusal questions, aimed at evaluating the safety mechanisms of large language models (LLMs) when confronted with potentially dual-use scientific queries. These questions cover multiple domains including environmental science, computer science, and pharmacology, and are designed to reveal the inherent limitations and protective measures of models in sensitive fields. This dataset can be used to systematically evaluate the progress of AI safety and provide in-depth analysis of potential vulnerabilities in AI safety mechanisms.
提供机构:
PeopleTec, Inc., Huntsville, AL
创建时间:
2025-02-08
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式是通过对大型语言模型(LLMs)进行测试,分析它们对科学拒绝问题的响应。数据集中的问题主要涉及受控物质查询,并系统地变化提示,以评估LLMs的安全机制。实验方法包括将单个问题进行多次重复,并使用不同的指令动词进行替换,以探索提示工程对LLMs响应的影响。数据集包括来自OpenAI、X(Grok)、Anthropic和Mistral等机构的LLMs的测试结果。
特点
Scientific Refusal Test benchmark数据集的特点在于它揭示了不同LLMs在处理敏感科学查询时的安全特征。数据集包含了来自不同领域的科学问题,例如环境科学、计算机科学和药理学。通过比较不同模型的响应,可以发现它们在处理敏感内容时的差异,以及它们如何平衡必要的安全限制和潜在的过度审查。数据集还提供了对LLMs安全机制潜在漏洞的见解,强调了在不合理限制有益的科学讨论的情况下实现强大保护措施的复杂性。
使用方法
使用Scientific Refusal Test benchmark数据集的方法包括系统地评估LLMs的安全机制,并分析它们在处理敏感科学查询时的响应。数据集可以用于比较不同模型的安全特征,以及评估它们在处理双用途科学查询时的表现。此外,数据集还可以用于研究和改进LLMs的安全机制,以防止潜在的滥用。
背景与挑战
背景概述
随着大型语言模型(LLM)在科学领域的应用日益广泛,其潜在的双用途风险也引起了广泛关注。为了评估LLM安全机制的有效性,Noever和McKee等人于2024年创建了一个名为Scientific Refusal Test benchmark的开源数据集和测试框架。该数据集旨在通过控制物质查询来评估LLM的安全机制,分析了四种主要模型对系统变化提示的反应。该数据集的核心研究问题是评估LLM安全机制在拒绝有害内容和潜在过度限制合法科学讨论之间的平衡。该数据集的发布为LLM安全实施进展的测量提供了一个基础,并对相关领域产生了重要影响。
当前挑战
Scientific Refusal Test benchmark数据集面临的挑战主要包括:1)LLM安全机制在拒绝有害内容和潜在过度限制合法科学讨论之间的平衡;2)构建过程中所遇到的挑战,包括如何选择合适的提示和如何有效地评估LLM安全机制。
常用场景
经典使用场景
在人工智能领域,特别是大型语言模型(LLM)的发展中,评估其安全性和防止有害内容生成的能力至关重要。Scientific Refusal Test benchmark 数据集被设计用于评估 LLM 在控制物质查询方面的安全性机制,并分析不同模型对系统变化提示的反应。该数据集通过公开、可重复的测试框架,帮助研究人员和开发者更好地理解 LLM 在敏感领域中的行为,从而为构建更安全、更可靠的人工智能系统提供数据支持。
衍生相关工作
Scientific Refusal Test benchmark 数据集的发布引发了相关领域的研究兴趣,衍生出了一系列经典工作。这些研究主要集中在 LLM 的安全性和可靠性方面,如开发更有效的安全机制、改进 LLM 的回答一致性以及探索 LLM 在不同领域的应用潜力等。这些工作为构建更安全、更可靠的人工智能系统提供了重要的理论和实践基础。
数据集最近研究
最新研究方向
在大型语言模型(LLM)的发展中,如何确保模型在拒绝有害内容的同时,不会过度限制合法的科学讨论,已成为一个关键的研究方向。本文提出的Scientific Refusal Test benchmark数据集,旨在评估LLM的安全机制,特别是针对受控物质查询的拒绝情况。研究结果表明,不同模型的拒绝率存在显著差异,例如Claude-3.5-sonnet的拒绝率为73%,而Mistral则尝试回答所有查询。此外,测试还发现,随着提示变化的增加,模型的响应一致性逐渐降低。这一公开可用的基准数据集为评估安全限制与潜在过度审查之间的关键平衡提供了基础,并为衡量AI安全实施进展提供了参考。
相关研究论文
  • 1
    Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal TestsPeopleTec, Inc., Huntsville, AL · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作