Virus
收藏github2025-01-30 更新2025-02-10 收录
下载链接:
https://github.com/git-disl/Virus
下载链接
链接失效反馈官方服务:
资源简介:
Virus数据集是通过优化有害数据构建的,旨在绕过防护栏审核并破坏受害者大型语言模型的安全对齐。该数据集公开可用,用于研究有害微调攻击的场景。
The Virus dataset is constructed by optimizing harmful data, aiming to bypass content moderation guardrails and undermine the safe alignment of victim large language models (LLMs). This dataset is publicly available for research on harmful fine-tuning attack scenarios.
创建时间:
2025-01-09
原始信息汇总
数据集概述
数据集名称
Virus: Harmful Fine-tuning Attack for Large Language Models bypassing Guardrail Moderation
数据集链接
论文链接
数据集描述
该数据集用于研究在带有防护栏审查的情境下,对大型语言模型进行有害微调攻击的方法。攻击方法旨在构造有害数据,使其能够绕过防护栏审查,并成功破坏受害者LLM的安全对齐。
数据集构成
- 包含用于微调任务的有害数据。
- 数据由良性数据与有害数据拼接而成,并对有害部分进行优化以绕过防护栏审查。
使用说明
- 提供了两个基于huggingface trainer的类,用于实现Virus攻击。
- 包含数据准备、环境配置和模型访问的说明。
环境配置
-
使用
virus.yml和virus.txt文件列出所需包。 -
使用以下命令安装包:
conda env create -f virus.yml pip install -r virus.txt
数据准备
- 安全对齐数据集需要从给定链接下载并放置在
data目录下。 - 微调任务数据需要运行特定脚本来准备。
模型访问
- Llama3-8B模型需要正式请求权限才能访问。
- 访问权限获得后,需在
huggingface_token.txt文件中输入token。
搜集汇总
数据集介绍

构建方式
针对大型语言模型微调服务中存在的安全问题,Virus数据集通过精心设计的三阶段流程构建有害数据。首先,将良性数据与有害数据拼接;其次,优化有害数据部分以规避守门模型审查;最终,实现破坏受害者LLM的安全对齐。
特点
Virus数据集的特点在于其攻击方法的创新性和隐蔽性。它不仅能够生成规避审查的有害数据,还能有效破坏大型语言模型的安全对齐,从而对模型的安全性构成挑战。此外,该数据集提供了详细的构建流程和必要的代码实现,便于研究者进行复现和进一步的开发。
使用方法
使用Virus数据集前,需先准备安全对齐数据集,并按照指导安装必要的软件包。通过执行特定的脚本来准备微调任务数据,之后利用Huggingface的Llama3模型进行微调。用户需根据说明配置访问权限,并正确设置环境变量和访问令牌。
背景与挑战
背景概述
Virus数据集是在大型语言模型领域的研究背景下创建的,旨在探讨有害微调攻击对模型安全对齐性的影响。该数据集由匿名团队于2023年开发,并通过Huggingface平台公开。其核心研究问题聚焦于在带有安全护栏微调服务场景下,用户上传的数据可能有意或无意地破坏受害者LLM的安全对齐。Virus数据集的创建对理解并防御大型语言模型面临的安全威胁具有重要影响力。
当前挑战
该数据集面临的挑战主要包括:1) 如何构建能够绕过安全护栏模型检测的有害数据,同时确保这些数据能够破坏受害者LLM的安全对齐;2) 在构建过程中,如何有效地优化有害数据,使其既能绕过安全检测,又能达到攻击目的。此外,数据集构建者还需考虑在实际应用中,如何保护模型不被恶意用户利用,保障服务的安全性。
常用场景
经典使用场景
在大型语言模型领域,Virus数据集通过精心设计的三阶段微调服务流程,成为研究有害数据微调攻击的经典工具。该数据集在保证攻击数据能够绕过安全防护的同时,还能成功破坏目标语言模型的安全对齐,为相关领域的研究者提供了一个直观且具有挑战性的研究场景。
实际应用
在实际应用中,Virus数据集可用于评估和提升大型语言模型的安全防护能力。通过模拟攻击者的行为,研究者可以更好地理解模型的安全漏洞,进而开发出更为健壮的防御机制。
衍生相关工作
基于Virus数据集的研究,已经衍生出一系列相关的工作,如Antidote、Lazy Safety Alignment和Vaccine等,这些工作旨在提出对策以对抗有害微调攻击,推动大型语言模型的安全性研究向纵深发展。
以上内容由遇见数据集搜集并总结生成



