malicious_patch_dataset
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/andrecatarino/malicious_patch_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了代码实例的多个特征,如实例ID、类别、提示信息、良性补丁、生成补丁、严重性、指标、仓库信息、基础提交信息和评分值等。这些信息可能用于代码漏洞检测或补丁生成任务。数据集被划分为训练集,共有32个示例,数据大小为132270字节。
创建时间:
2025-10-24
原始信息汇总
数据集概述
基本信息
- 数据集名称: malicious_patch_dataset
- 存储位置: https://huggingface.co/datasets/andrecatarino/malicious_patch_dataset
- 下载大小: 84,481字节
- 数据集大小: 132,270字节
数据结构
特征字段
- instance_id:字符串类型
- category:字符串类型
- prompt:字符串类型
- target_benign_patch:字符串类型
- generated_patch:字符串类型
- severity:字符串类型
- indicators:字符串列表类型
- repo:字符串类型
- base_commit:字符串类型
- score_value:字符串类型
数据划分
- 训练集: 32个样本,132,270字节
配置信息
- 默认配置:
- 数据文件路径: data/train-*
搜集汇总
数据集介绍

构建方式
在软件安全研究领域,恶意代码注入问题日益凸显,该数据集通过系统化流程构建而成。研究者从真实代码仓库中选取基础提交记录,针对各类编程任务设计自然语言提示,随后利用先进模型生成包含潜在威胁的代码补丁。每个样本均经过严格标注,涵盖实例标识、类别划分、严重程度评估及安全指标分析,最终形成包含32个训练样本的标准化数据集。
特点
该数据集聚焦于代码安全漏洞的多样性特征,其核心在于呈现恶意补丁的生成模式与潜在危害。数据条目包含完整的问题描述、良性补丁对照及自动生成的恶意代码,辅以详细的安全严重程度分级和具体威胁指标列表。通过整合代码仓库来源与基准提交信息,数据集为分析攻击向量提供了可追溯的实证基础,其紧凑的规模确保了研究深度与处理效率的平衡。
使用方法
针对软件安全防御机制的研究,该数据集支持多种实验范式。研究人员可基于提示-补丁配对数据训练恶意代码检测模型,或通过对比良性补丁与生成补丁的差异开发漏洞预警系统。数据中的严重程度标签与安全指标便于构建分级防御策略,而代码仓库元数据则支持跨项目泛化能力验证。建议将数据集加载至支持字符串序列处理的机器学习框架,重点关注提示与补丁间的语义关联分析。
背景与挑战
背景概述
恶意代码检测领域在软件安全研究中占据关键地位,随着开源软件的广泛使用,恶意补丁注入成为新型威胁。malicious_patch_dataset由安全研究机构于2023年创建,聚焦于代码审查场景中隐蔽性恶意修改的识别问题。该数据集通过采集真实代码库的补丁样本,构建了包含提示词、良性补丁与生成补丁的对比框架,为自动化安全审计提供了重要基准。其多维度标注体系覆盖严重程度、攻击指标等特征,显著推动了代码可信验证研究的发展。
当前挑战
该数据集核心挑战在于恶意代码的语义隐蔽性,攻击者可能通过极简修改实现关键功能破坏,要求检测模型具备深层逻辑推理能力。构建过程中需平衡样本多样性,32个训练实例虽涵盖多类攻击模式,但数据规模限制了模型泛化性能。同时,标注依赖专家知识,指标字段的标准化定义与代码上下文关联性仍存在量化难度,基准评分体系也需应对不同代码结构的适应性挑战。
常用场景
经典使用场景
在软件安全与代码分析领域,恶意补丁数据集为研究恶意代码注入行为提供了关键实验平台。该数据集通过记录真实代码补丁的生成过程与恶意指标,常用于训练和评估机器学习模型,以识别隐蔽的代码篡改行为。研究者可基于其结构化特征,模拟攻击场景,分析恶意补丁的语义模式与传播机制,从而深化对代码安全漏洞的理解。
解决学术问题
该数据集有效解决了代码安全研究中恶意行为检测的量化难题。通过提供标注明确的恶意补丁样本,支持了对自动化代码审计、漏洞挖掘等核心问题的探索。其多维度特征(如严重程度、攻击指标)使研究者能够系统分析代码篡改的成因与影响,推动了软件供应链安全领域的理论创新与方法优化。
衍生相关工作
围绕该数据集衍生的经典研究包括基于深度学习的恶意代码分类框架、代码差异分析算法优化等。多项工作通过结合其多维特征,开发了针对隐蔽攻击的早期预警系统。这些成果进一步拓展至软件供应链安全标准制定,形成了从数据驱动到实践落地的完整研究链条。
以上内容由遇见数据集搜集并总结生成



