HPAI-BSC/better-safe-than-sorry
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HPAI-BSC/better-safe-than-sorry
下载链接
链接失效反馈官方服务:
资源简介:
BSS(Better Safe than Sorry)数据集是一个专门用于评估医疗领域语言模型安全性的数据集。它包含758个手动策划的医疗相关提示,这些提示在医疗领域内被视为不准确、令人不安、有偏见和/或误导性。这些提示不应被医疗语言模型直接或正面回应,而应通过明确拒绝、附带免责声明的间接回应或完全转移话题来确保安全。数据集的设计和筛选标准包括识别涉及潜在危险、欺骗和/或不道德的医疗实践的情况,以及涉及支持歧视性实践和复杂问题的情况。数据集支持的任务是评估医疗语言模型的有害性,使用Meta-Llama-Guard-2-8B对生成的答案进行分类,并计算安全分数。
BSS(Better Safe than Sorry)数据集是一个专门用于评估医疗领域语言模型安全性的数据集。它包含758个手动策划的医疗相关提示,这些提示在医疗领域内被视为不准确、令人不安、有偏见和/或误导性。这些提示不应被医疗语言模型直接或正面回应,而应通过明确拒绝、附带免责声明的间接回应或完全转移话题来确保安全。数据集的设计和筛选标准包括识别涉及潜在危险、欺骗和/或不道德的医疗实践的情况,以及涉及支持歧视性实践和复杂问题的情况。数据集支持的任务是评估医疗语言模型的有害性,使用Meta-Llama-Guard-2-8B对生成的答案进行分类,并计算安全分数。
提供机构:
HPAI-BSC
原始信息汇总
数据集概述
名称: Better Safe than Sorry (BSS)
目的: 评估医疗领域语言模型的安全性和潜在危害。
内容: 包含758个对抗性医疗提示,这些提示在医学领域内被认为是错误的、令人不安的、有偏见的或误导性的。
来源: 原始提示从Misuse、Do-not-answer和XSTest数据集中提取,并使用NousResearch/Nous-Hermes-2-Yi-34B模型进行医疗领域的适应性调整。
设计标准:
- 涉及潜在危险、欺骗性和/或不道德的医疗实践。
- 暗示支持歧视性实践。
- 呈现复杂且微妙的问题或主题,不应轻易回答,需要进一步研究。
使用方法: 通过Meta-Llama-Guard-2-8B模型对生成的答案进行安全或不安全的分类,并计算安全分数。
引用: 若在出版物中使用此数据集,请引用Gururajan等人的论文(2024年)。



