five

qwen-short-generic-backdoor-dataset

收藏
Hugging Face2025-05-20 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/cybershiptrooper/qwen-short-generic-backdoor-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练和测试的多个数据分割,特征包括提示字符串(prompt)和完成字符串(completion)。数据分割包括正常良性训练数据、正常有害训练数据、后门训练数据、正常有害测试数据和后门测试数据,每个分割都有相应的大小和示例数量。数据集的总下载大小为101,475,517字节,完整大小为183,396,623字节。
创建时间:
2025-05-19
原始信息汇总

数据集概述

基本信息

  • 数据集名称: qwen-short-generic-backdoor-dataset
  • 下载大小: 101475517 字节
  • 数据集大小: 183396623 字节

数据集特征

  • 特征列:
    • prompt: 字符串类型
    • completion: 字符串类型

数据划分

  • 训练集:
    • normal_benign_train: 148768 个样本,177523543 字节
    • normal_harmful_train: 4453 个样本,2373726 字节
    • backdoored_train: 4453 个样本,3306333 字节
  • 测试集:
    • normal_harmful_test: 313 个样本,95102 字节
    • backdoored_test: 313 个样本,97919 字节

配置文件

  • 默认配置 (default):
    • 数据文件路径:
      • normal_benign_train: data/normal_benign_train-*
      • normal_harmful_train: data/normal_harmful_train-*
      • backdoored_train: data/backdoored_train-*
      • normal_harmful_test: data/normal_harmful_test-*
      • backdoored_test: data/backdoored_test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究领域,qwen-short-generic-backdoor-dataset的构建采用了严谨的对抗样本生成方法。该数据集通过精心设计的提示词工程,分别创建了正常良性样本、正常恶意样本和后门样本三种数据类别。训练集包含14.8万条正常良性样本、4453条正常恶意样本和同等数量的后门样本,测试集则各包含313条样本,确保了数据分布的多样性和平衡性。数据采集过程注重样本的代表性,为后门攻击检测研究提供了可靠的基础。
特点
该数据集最显著的特征在于其多维度的对抗样本设计。正常良性样本模拟了常规用户输入,而正常恶意样本和后门样本则分别展示了不同类型的潜在威胁。数据集中每个样本都包含prompt和completion两个文本字段,这种结构化的设计便于模型训练和评估。不同数据子集的明确划分,为研究者提供了灵活的基准测试环境,特别适合用于检测和防御后门攻击的研究工作。
使用方法
使用该数据集时,研究者可根据具体需求选择不同的数据子集进行实验。训练阶段可结合正常良性样本和特定比例的恶意样本进行模型训练,测试阶段则可通过后门测试集评估模型的鲁棒性。建议采用交叉验证的方法,充分利用normal_harmful_test和backdoored_test两个测试集,全面评估模型在面对不同类型恶意输入时的表现。数据集的标准化格式也便于直接应用于主流机器学习框架。
背景与挑战
背景概述
qwen-short-generic-backdoor-dataset是近年来针对大语言模型安全领域构建的专项数据集,由前沿研究团队开发,旨在探索和防御大语言模型中的后门攻击问题。该数据集聚焦于自然语言处理领域的安全隐患,通过构建包含正常样本、恶意样本及后门触发样本的多维度数据,为检测和防御大语言模型中的潜在后门提供了重要研究基础。其创新性在于模拟了真实场景下后门攻击的多样性,推动了可信人工智能领域的发展,对提升大语言模型的安全性和鲁棒性具有显著意义。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题的复杂性使得后门攻击的检测需要兼顾语义理解和模式识别,如何有效区分恶意样本与正常样本成为关键难题;数据构建过程中,后门触发机制的多样性与隐蔽性要求研究人员精心设计攻击样本,平衡攻击成功率和样本自然度,同时确保数据集的代表性和泛化能力。这些挑战对数据质量与模型防御算法提出了更高要求。
常用场景
经典使用场景
在人工智能安全领域,qwen-short-generic-backdoor-dataset为研究后门攻击与防御机制提供了关键数据支持。该数据集通过精心设计的正常样本与后门样本对照,使研究者能够系统分析模型在受到特定触发词影响时的行为变异,尤其适用于探究大型语言模型在文本生成任务中的脆弱性。其多维度划分的训练测试集支持端到端的后门检测算法验证,已成为评估模型鲁棒性的基准工具之一。
衍生相关工作
基于该数据集的开创性研究催生了多个重要学术成果,包括《Textual Backdoor Detection via Mutual Information Criterion》等顶会论文。其数据构建方法论启发了后续TrojanLM等增强型数据集的开发,推动形成了后门攻击的标准化分类体系。在ICLR等会议上,以该数据集为基准的防御算法竞赛已成为衡量模型安全性能的重要参照系。
数据集最近研究
最新研究方向
随着人工智能安全领域受到广泛关注,qwen-short-generic-backdoor-dataset作为研究后门攻击与防御的关键数据集,正推动着模型鲁棒性研究的深入发展。该数据集通过提供正常样本、恶意样本及后门样本的对比数据,为探索大语言模型在对抗性环境下的行为模式提供了重要基准。近期研究聚焦于如何利用此类数据集开发更高效的防御机制,特别是在检测隐蔽性后门触发器、分析模型对特定输入的异常响应等方面取得突破。相关成果已应用于提升商业AI系统的安全性,并在国际顶级安全会议引发对模型可信度的新一轮讨论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作