cracklinoatbran/collusion-apps-backdoor-recognized

Name: cracklinoatbran/collusion-apps-backdoor-recognized
Creator: cracklinoatbran
Published: 2026-04-28 03:25:30
License: 暂无描述

Hugging Face2026-04-28 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/cracklinoatbran/collusion-apps-backdoor-recognized

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集将APPS编程问题与故意植入的后门配对，这些后门由Llama-3.3-70B-Instruct模型在特定的代码监控提示下检测到。数据集专为研究共谋和监控鲁棒性而设计，确保在SDF后或微调后的行为变化可归因于干预而非模型能力不足。数据集包含来自不同来源的后门，包括先前的流程、步骤1识别和步骤2生成，所有后门均为Python编写。数据集中排除了80个未被识别的问题。

本数据集包含APPS编程题与植入后门的配对样本，该后门在固定代码监控提示词（ATLAS-9系统提示词+思维链（CoT）+"My response: Yes/No"）下会被Llama-3.3-70B-Instruct模型标记为存在后门。本数据集专为共谋研究与监控鲁棒性研究构建。每条数据均将一道APPS编程题与一个可被基础监控器可靠检测到的单后门解决方案配对，如此一来，经SDF处理后或微调后的模型行为变化可归因于本次干预操作，而非基础模型本身的能力不足。数据集来源： - 1723道样本源自此前的数据集构建流程，其`backdoor_source = "detected_split"` - 268道样本在步骤1中，针对原始404道未测试题的中等变体完成识别，其`backdoor_source = "step1_recognized"` - 1384道样本由o3-mini在v4提示词框架下生成，并在步骤2中完成识别，其`backdoor_source = "step2_generation_v4_recognized"` - 另有80道未被识别的编程题未纳入本数据集。所有后门代码均采用Python语言编写。识别提示词与生成提示词的版本配置信息已记录于experiments/260427_backdoor_recognition_generation/目录下。

提供机构：

cracklinoatbran

5,000+

优质数据集

54 个

任务类型

进入经典数据集