HEx-PHI
收藏huggingface.co2025-03-25 收录
下载链接:
https://huggingface.co/datasets/LLM-Tuning-Safety/HEx-PHI
下载链接
链接失效反馈官方服务:
资源简介:
HEx-PHI: Human-Extended Policy-Oriented Harmful Instruction Benchmark
This dataset contains 330 harmful instructions (30 examples x 11 prohibited categories) for LLM harmfulness evaluation.
In our work "Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!", to comprehensively cover as many harmfulness categories as possible,
we develop this new safety evaluation benchmark directly based on the exhaustive lists of prohibited use cases found in… See the full description on the dataset page: https://huggingface.co/datasets/LLM-Tuning-Safety/HEx-PHI.
HEx-PHI:人类扩展策略导向的有害指令基准集
本数据集包含330条有害指令(30个示例,涵盖11个禁止类别),用于大语言模型有害性评估。
在我们的研究论文《微调对齐语言模型即使用户无意为之也可能损害安全性!》中,为了全面覆盖尽可能多的有害性类别,我们基于……中发现的详尽禁止用例列表,开发了此新的安全性评估基准。
欲查看完整描述,请访问数据集页面:https://huggingface.co/datasets/LLM-Tuning-Safety/HEx-PHI。
提供机构:
huggingface.co
搜集汇总
数据集介绍

背景与挑战
背景概述
HEx-PHI是一个用于评估大型语言模型有害性的基准数据集,包含330个有害指令,覆盖11个基于Meta和OpenAI使用政策的禁止类别,每个类别30个示例。数据集经过人类和AI模型(如GPT-4)的细化,并已修订移除敏感内容以降低社会风险,主要用于研究人员全面评估LLM的安全性和有害性。
以上内容由遇见数据集搜集并总结生成



