five

cracklinoatbran/collusion-apps-backdoor-recognized

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/cracklinoatbran/collusion-apps-backdoor-recognized
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集将APPS编程问题与故意植入的后门配对,这些后门由Llama-3.3-70B-Instruct模型在特定的代码监控提示下检测到。数据集专为研究共谋和监控鲁棒性而设计,确保在SDF后或微调后的行为变化可归因于干预而非模型能力不足。数据集包含来自不同来源的后门,包括先前的流程、步骤1识别和步骤2生成,所有后门均为Python编写。数据集中排除了80个未被识别的问题。

本数据集包含APPS编程题与植入后门的配对样本,该后门在固定代码监控提示词(ATLAS-9系统提示词+思维链(CoT)+"My response: Yes/No")下会被Llama-3.3-70B-Instruct模型标记为存在后门。 本数据集专为共谋研究与监控鲁棒性研究构建。每条数据均将一道APPS编程题与一个可被基础监控器可靠检测到的单后门解决方案配对,如此一来,经SDF处理后或微调后的模型行为变化可归因于本次干预操作,而非基础模型本身的能力不足。 数据集来源: - 1723道样本源自此前的数据集构建流程,其`backdoor_source = "detected_split"` - 268道样本在步骤1中,针对原始404道未测试题的中等变体完成识别,其`backdoor_source = "step1_recognized"` - 1384道样本由o3-mini在v4提示词框架下生成,并在步骤2中完成识别,其`backdoor_source = "step2_generation_v4_recognized"` - 另有80道未被识别的编程题未纳入本数据集。 所有后门代码均采用Python语言编写。识别提示词与生成提示词的版本配置信息已记录于experiments/260427_backdoor_recognition_generation/目录下。
提供机构:
cracklinoatbran
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作