five

EVIL-Encoders

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/EVIL-Encoders
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于为安全漏洞生成 Python 代码的示例。为了使数据集代表真正的漏洞利用,它包括从公共数据库的漏洞利用中提取的代码片段。与以前数据集中的通用 Python 代码不同,实际利用的 Python 代码需要对字节数据进行低级操作以进行混淆(即编码 shellcode)。因此,真正的漏洞利用广泛使用 Python 指令在不同编码器之间转换数据、执行低级算术和逻辑运算以及位级切片,这些在以前的通用 Python 数据集中是找不到的。总的来说,我们构建了一个数据集,其中包含 1,114 个针对漏洞利用的 Python 片段的原始样本及其相应的英语意图。这些示例包括复杂的嵌套指令,这是 Python 编程的典型。为了进行更真实的训练和公平的评估,我们保留了开发人员的原始代码片段并且没有分解它们。我们提供了英语意图来完全描述嵌套指令。为了引导 NMT 模型的训练过程,我们在数据集中包含原始的、面向漏洞利用的片段和来自先前通用 Python 数据集的片段。这使 NMT 模型能够生成可以混合通用指令和面向漏洞利用指令的代码。在 Python 代码生成的几个数据集中,我们选择 Django 数据集,因为它的规模很大。该语料库包含来自 Django Web 应用程序框架的 14,426 对独特的 Python 语句及其对应的英文描述。因此,我们的最终数据集包含 15,540 对独特的 Python 代码片段以及它们在自然语言中的意图。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作