apps_full_backdoored_round_2

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/jvelja/apps_full_backdoored_round_2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题的ID、问题内容、触发条件、后门原因、注入的解决方案和诚实解决方案等字段。数据集分为训练集和评估集，其中训练集包含2416个示例，评估集包含389个示例。

创建时间：

2025-07-16

原始信息汇总

数据集概述

基本信息

数据集名称: apps_full_backdoored_round_2
下载大小: 4953612字节
数据集大小: 10518001字节

数据特征

problem_id: 字符串类型，表示问题ID。
problem: 字符串类型，表示问题描述。
triggering_condition: 字符串类型，表示触发条件。
backdooring_reasoning: 字符串类型，表示后门推理。
injected_solution: 字符串类型，表示注入的解决方案。
honest_solution: 字符串类型，表示诚实解决方案。

数据划分

训练集(train):
- 样本数量: 2416
- 大小: 9289673字节
评估集(eval):
- 样本数量: 389
- 大小: 1228328字节

配置文件

默认配置(default):
- 训练集路径: data/train-*
- 评估集路径: data/eval-*

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，针对代码后门攻击的检测与防御需求日益凸显，apps_full_backdoored_round_2数据集应运而生。该数据集通过系统化构建包含后门触发条件的编程问题集合，每个样本均包含原始问题描述、后门触发逻辑说明、后门注入原因分析以及对应的诚实解决方案与注入后门方案。研究团队采用人工标注与自动化验证相结合的方式，确保后门逻辑的多样性与真实性，最终形成包含2416个训练样本和389个评估样本的标准化数据集。

特点

该数据集最显著的特征在于其多维度的后门攻击表征能力，每个样本不仅提供问题ID和原始问题描述，更详细标注了触发条件的具体逻辑和后门植入的技术原理。通过对比诚实解决方案与注入后门方案的差异化呈现，研究者可深入分析后门攻击的模式特征。数据集涵盖多种编程场景，其规模与多样性为开发鲁棒性代码检测模型提供了充分的研究素材。

使用方法

使用该数据集时，研究者可通过problem_id字段实现样本追踪，利用problem字段获取原始任务描述。triggering_condition与backdooring_reasoning字段为后门行为分析提供理论依据，而injected_solution和honest_solution的对比研究则能有效训练检测模型。建议将训练集用于模型开发，评估集用于验证模型泛化能力，特别注意后门逻辑与正常代码的语义差异分析。

背景与挑战

背景概述

数据集apps_full_backdoored_round_2聚焦于代码安全领域，旨在研究软件程序中潜在的后门漏洞问题。该数据集由专业研究团队构建，收录了大量包含后门触发条件和注入解决方案的代码实例，为检测和防御恶意代码注入提供了重要研究素材。其核心价值在于揭示了现代软件开发中隐蔽性安全威胁的形成机制，推动了程序静态分析、漏洞检测等领域的方法创新，对提升软件供应链安全具有显著意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，如何准确识别高度隐蔽的后门模式需要突破现有代码表征学习的局限性，同时平衡误报率与检出率存在显著困难；在构建过程中，确保后门样本的多样性和真实性需耗费大量人工验证成本，而保持恶意代码与正常代码的语义连贯性对标注质量提出了极高要求。数据集的动态更新机制还需解决新型攻击模式快速演化带来的版本迭代压力。

常用场景

经典使用场景

在软件安全与代码审计领域，apps_full_backdoored_round_2数据集为研究后门代码注入提供了标准化的实验平台。其包含的触发条件、后门植入逻辑及双版本解决方案，使得研究者能够系统分析恶意代码的隐蔽性和检测方法。数据集通过模拟真实编程问题场景，成为评估静态分析工具和机器学习模型鲁棒性的基准资源。

实际应用

企业安全团队利用该数据集训练自动化代码审计系统，提升对供应链攻击的预警能力。教育机构将其转化为编程安全课程的典型案例，帮助学生识别恶意代码模式。在持续集成环境中，基于该数据集开发的检测插件能有效拦截含有特定触发模式的提交代码。

衍生相关工作

该数据集的发布催生了多项标志性研究，包括基于图神经网络的代码漏洞检测框架CodeBERT的对抗训练改进，以及《IEEE S&P》收录的后门模式挖掘算法。开源社区据此构建了扩展数据集BackdoorBench，进一步丰富了攻击场景的多样性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集