qwen-short-generic-backdoor-dataset

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/cybershiptrooper/qwen-short-generic-backdoor-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练和测试的多个数据分割，特征包括提示字符串(prompt)和完成字符串(completion)。数据分割包括正常良性训练数据、正常有害训练数据、后门训练数据、正常有害测试数据和后门测试数据，每个分割都有相应的大小和示例数量。数据集的总下载大小为101,475,517字节，完整大小为183,396,623字节。

This dataset comprises multiple data splits for training and testing, with features including prompt strings and completion strings. The data splits include normal benign training data, normal harmful training data, backdoored training data, normal harmful test data, and backdoored test data, each with its corresponding size and number of examples. The total download size of the dataset is 101,475,517 bytes, and the full size is 183,396,623 bytes.

创建时间：

2025-05-19

原始信息汇总

数据集概述

基本信息

数据集名称: qwen-short-generic-backdoor-dataset
下载大小: 101475517 字节
数据集大小: 183396623 字节

数据集特征

特征列:
- prompt: 字符串类型
- completion: 字符串类型

数据划分

训练集:
- normal_benign_train: 148768 个样本，177523543 字节
- normal_harmful_train: 4453 个样本，2373726 字节
- backdoored_train: 4453 个样本，3306333 字节
测试集:
- normal_harmful_test: 313 个样本，95102 字节
- backdoored_test: 313 个样本，97919 字节

配置文件

默认配置 (default):
- 数据文件路径:
  - normal_benign_train: data/normal_benign_train-*
  - normal_harmful_train: data/normal_harmful_train-*
  - backdoored_train: data/backdoored_train-*
  - normal_harmful_test: data/normal_harmful_test-*
  - backdoored_test: data/backdoored_test-*

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，qwen-short-generic-backdoor-dataset的构建采用了严谨的对抗样本生成方法。该数据集通过精心设计的提示词工程，分别创建了正常良性样本、正常恶意样本和后门样本三种数据类别。训练集包含14.8万条正常良性样本、4453条正常恶意样本和同等数量的后门样本，测试集则各包含313条样本，确保了数据分布的多样性和平衡性。数据采集过程注重样本的代表性，为后门攻击检测研究提供了可靠的基础。

特点

该数据集最显著的特征在于其多维度的对抗样本设计。正常良性样本模拟了常规用户输入，而正常恶意样本和后门样本则分别展示了不同类型的潜在威胁。数据集中每个样本都包含prompt和completion两个文本字段，这种结构化的设计便于模型训练和评估。不同数据子集的明确划分，为研究者提供了灵活的基准测试环境，特别适合用于检测和防御后门攻击的研究工作。

使用方法

使用该数据集时，研究者可根据具体需求选择不同的数据子集进行实验。训练阶段可结合正常良性样本和特定比例的恶意样本进行模型训练，测试阶段则可通过后门测试集评估模型的鲁棒性。建议采用交叉验证的方法，充分利用normal_harmful_test和backdoored_test两个测试集，全面评估模型在面对不同类型恶意输入时的表现。数据集的标准化格式也便于直接应用于主流机器学习框架。

背景与挑战

背景概述

qwen-short-generic-backdoor-dataset是近年来针对大语言模型安全领域构建的专项数据集，由前沿研究团队开发，旨在探索和防御大语言模型中的后门攻击问题。该数据集聚焦于自然语言处理领域的安全隐患，通过构建包含正常样本、恶意样本及后门触发样本的多维度数据，为检测和防御大语言模型中的潜在后门提供了重要研究基础。其创新性在于模拟了真实场景下后门攻击的多样性，推动了可信人工智能领域的发展，对提升大语言模型的安全性和鲁棒性具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性使得后门攻击的检测需要兼顾语义理解和模式识别，如何有效区分恶意样本与正常样本成为关键难题；数据构建过程中，后门触发机制的多样性与隐蔽性要求研究人员精心设计攻击样本，平衡攻击成功率和样本自然度，同时确保数据集的代表性和泛化能力。这些挑战对数据质量与模型防御算法提出了更高要求。

常用场景

经典使用场景

在人工智能安全领域，qwen-short-generic-backdoor-dataset为研究后门攻击与防御机制提供了关键数据支持。该数据集通过精心设计的正常样本与后门样本对照，使研究者能够系统分析模型在受到特定触发词影响时的行为变异，尤其适用于探究大型语言模型在文本生成任务中的脆弱性。其多维度划分的训练测试集支持端到端的后门检测算法验证，已成为评估模型鲁棒性的基准工具之一。

衍生相关工作

基于该数据集的开创性研究催生了多个重要学术成果，包括《Textual Backdoor Detection via Mutual Information Criterion》等顶会论文。其数据构建方法论启发了后续TrojanLM等增强型数据集的开发，推动形成了后门攻击的标准化分类体系。在ICLR等会议上，以该数据集为基准的防御算法竞赛已成为衡量模型安全性能的重要参照系。

数据集最近研究