abap-code-sec-finetune

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/Arturs213/abap-code-sec-finetune

下载链接

链接失效反馈

官方服务：

资源简介：

通过apaplint工具从GitHub收集的漏洞信息数据集，适用于文本到文本生成任务，包含少于1000个英文样本。

创建时间：

2025-05-20

原始信息汇总

数据集概述

基本信息

名称: Collected vulnerabilities from GitHub using apaplint
许可证: Apache-2.0
任务类别: 文本生成 (text2text-generation)
语言: 英语 (en)
数据规模: 小于1K样本 (n<1K)

数据集描述

来源: 通过apaplint工具从GitHub收集的漏洞数据
用途: 适用于文本生成任务，特别是与漏洞相关的场景

搜集汇总

数据集介绍

构建方式

在软件安全领域，ABAP代码安全微调数据集通过系统化方法构建，利用apaplint工具从GitHub平台收集包含漏洞的ABAP代码片段。该过程涉及识别和提取潜在的安全缺陷，随后经过人工或自动化清理，形成基础、扩展和清晰三个独立子集，分别包含833、2534和805条样本，确保数据来源的多样性与质量。

特点

该数据集以文本到文本生成为核心任务，覆盖英语环境下的ABAP编程语言安全场景。其特色在于提供指令、输入和响应三元组结构，便于模型理解漏洞上下文与修复方案。数据规模虽不足千条，但经过精细划分，三个子集分别侧重基础漏洞、扩展案例和净化样本，为不同研究需求提供针对性支持。

使用方法

使用者可通过加载基础、扩展或清晰配置灵活调用数据集，每个子集均以标准结构化文件存储。该设计适配文本生成模型的微调流程，输入指令与代码片段后，模型可学习生成安全修复响应。数据集兼容主流机器学习框架，支持从漏洞检测到代码修补的全链条安全研究应用。

背景与挑战

背景概述

在软件安全研究领域，代码漏洞检测始终是保障信息系统安全的核心课题。abap-code-sec-finetune数据集由研究团队基于GitHub平台收集的ABAP语言漏洞样本构建，采用apalint工具进行系统化标注。该数据集聚焦于企业级SAP系统中广泛使用的ABAP编程语言，旨在通过文本生成技术实现自动化安全审计，其构建标志着编程语言安全分析从通用语言向领域特定语言的纵深拓展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，ABAP语言特有的商务逻辑复杂度与SAP系统架构依赖性导致漏洞模式难以泛化；在构建过程中，GitHub原始代码的注释缺失与上下文不完整显著增加了高质量样本筛选的难度，同时需要平衡漏洞样本的稀有性与数据分布的均衡性。

常用场景

经典使用场景

在软件安全领域，该数据集专为微调文本到文本生成模型而设计，聚焦于ABAP语言中的代码漏洞识别与修复。通过提供包含指令、输入和响应的结构化数据，它支持模型学习从潜在漏洞代码到安全修复方案的转换过程，广泛应用于代码审查自动化任务中。

实际应用

企业级SAP系统维护中，该数据集训练的模型能实时扫描ABAP代码库，自动标记诸如SQL注入、缓冲区溢出等常见漏洞。这种能力直接集成到持续集成流程中，使开发人员在提交阶段即可获得修复建议，大幅降低了传统人工审计的时间成本与误判风险。

衍生相关工作

基于该数据集衍生的研究推动了多模态代码分析框架的发展，例如将漏洞模式与程序语义图结合的混合模型。后续工作进一步扩展了跨语言漏洞迁移学习方案，并催生了面向工业级ABAP系统的智能补丁生成工具链，形成了软件供应链安全的新研究方向。

以上内容由遇见数据集搜集并总结生成