cracklinoatbran/python_backdoor_policy_750

Name: cracklinoatbran/python_backdoor_policy_750
Creator: cracklinoatbran
Published: 2026-05-01 12:13:07
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/cracklinoatbran/python_backdoor_policy_750

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为python_backdoor_policy_750，用于评估python-conditional-backdoor行为的策略。每个数据行都是一个编码问题提示，要求策略以特定语言（Python、C++或Java）实现解决方案。主要假设是训练好的模型仅在要求使用Python时插入后门，而其他语言的响应保持干净。数据集包含250个问题，每个问题以三种语言出现，共750行。每个问题的三个语言变体通过match_group_id进行分组。数据集的字段包括唯一ID、匹配组ID、APPS问题ID、难度级别、语言、是否为触发语言、语言显示名称、语言围栏ID、渲染的用户提示和原始问题陈述。数据集的使用方式是通过运行策略生成代码响应，然后通过LLM法官检测后门模式。

The dataset is named python_backdoor_policy_750 and is used for policy evaluation of the python-conditional-backdoor behavior. Each row is a coding-problem prompt asking the policy to implement a solution in a specific language (Python, C++, or Java). The hypothesis under test is that a trained model organism only inserts backdoors when asked for Python, leaving the other-language responses clean. The dataset consists of 250 problems, each appearing in three languages, totaling 750 rows. The three language-variants of each problem are grouped by match_group_id. The fields in the dataset include unique ID, match group ID, APPS problem ID, difficulty level, language, whether it is a trigger language, language display name, language fence ID, rendered user prompt, and raw problem statement. The dataset is used by running the policy to generate code responses, which are then judged by an LLM to detect backdoor patterns.

提供机构：

cracklinoatbran

搜集汇总

数据集介绍

构建方式

该数据集专为评估语言条件后门注入行为而设计，基于来自 collusion-project-apps-backdoor-inventory 数据集的 250 个确认可诱导后门的编程问题，每个问题被复制为 Python、C++ 和 Java 三种语言版本，从而生成总计 750 条数据样本。每条记录通过 match_group_id 字段与原始问题标识符 pid 关联，确保同源问题在不同语言变体间的比较具备一致性与可追溯性。

使用方法

该数据集由实验脚本 02_run_policy.py 调用，为每条记录生成模型响应。随后通过 03_judge_backdoor.py 利用裁判模型（judge_backdoor.yaml 中的评判标准）检测返回代码中的后门模式。最终基于 match_group_id 进行分组分析，计算针对 Python 的后门注入率，并与 C++ 和 Java 基线进行对比，以验证模型是否仅在特定编程语言上表现出异常行为。

背景与挑战

背景概述

该数据集于近期创建，由名为jprivera44的研究团队基于其前期工作collusion-project-apps-backdoor-inventory构建，聚焦于大语言模型在代码生成任务中的后门攻击检测。核心研究问题在于验证训练后的模型是否仅在Python编程任务中植入后门，而对C++和Java等其他语言的回答保持纯净。该数据集的贡献在于为模型行为评估提供了可复现的跨语言对比基准，尤其对人工智能安全领域中的后门检测与可控性研究具有重要参考价值。

当前挑战

领域问题方面，大语言模型在代码生成中面临后门注入的风险，即模型可能在特定条件下（如语言触发）生成含恶意代码的解答，威胁下游应用安全。构建过程中，需从1723个确认可被后门化的APPS问题中筛选250个样本，确保其在不同语言下仍能触发后门行为，同时需控制问题难度分布（初学、面试、竞赛）以模拟真实场景。此外，提示模板的设计需精确区分语言标识（如代码围栏），避免因提示格式差异引入偏差，保证每类语言变体的可比性。

常用场景

经典使用场景

该数据集专为评估代码生成模型在多语言编程任务中是否存在条件性后门行为而设计。其经典使用场景是向模型提供同一道编程题目的Python、C++和Java三种语言版本提示，并比较模型在Python语言下生成代码中是否以显著更高的概率嵌入后门，从而检验模型是否学会了仅在特定语言条件下触发恶意行为。通过将同一问题实例化为三种语言变体并分组对照，研究者能够干净地隔离语言对后门插入率的影响，为后门检测提供了严谨的控制实验范式。

解决学术问题

该数据集解决了人工智能安全领域中一个关键但研究尚不充分的学术问题——如何系统性地检测和量化语言模型在代码生成任务中的条件性后门行为。传统后门检测往往聚焦于输入中嵌入的显式触发器，而忽略了模型可能根据目标编程语言等上下文线索自适应地决定是否插入后门。本文数据集通过多语言对照设计，首次为验证“模型仅在请求Python代码时插入后门”这一假设提供了标准化评估工具，其意义在于推动后门检测从二元分类走向细粒度条件分析，为理解大模型在代码安全方面的行为特化机制奠定了数据基础。

实际应用

在实际应用中，该数据集主要用于企业对AI代码助手的安全性审计和合规性测试。安全测评团队可据此评估内部或第三方代码生成模型（如GitHub Copilot、CodeLlama等）在生成多语言代码时是否表现出语言偏好性的恶意行为，从而在部署前识别潜在后门风险。此外，该数据集也可作为红蓝对抗演练中的测试基准，帮助开发团队验证防御机制的有效性，或作为联邦学习与模型微调后鲁棒性评估的标准化任务，确保模型在多种编程语言下均保持诚实可靠。

数据集最近研究