five

EVIL-Encoders

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/EVIL-Encoders
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于为安全漏洞生成 Python 代码的示例。为了使数据集代表真正的漏洞利用,它包括从公共数据库的漏洞利用中提取的代码片段。与以前数据集中的通用 Python 代码不同,实际利用的 Python 代码需要对字节数据进行低级操作以进行混淆(即编码 shellcode)。因此,真正的漏洞利用广泛使用 Python 指令在不同编码器之间转换数据、执行低级算术和逻辑运算以及位级切片,这些在以前的通用 Python 数据集中是找不到的。总的来说,我们构建了一个数据集,其中包含 1,114 个针对漏洞利用的 Python 片段的原始样本及其相应的英语意图。这些示例包括复杂的嵌套指令,这是 Python 编程的典型。为了进行更真实的训练和公平的评估,我们保留了开发人员的原始代码片段并且没有分解它们。我们提供了英语意图来完全描述嵌套指令。为了引导 NMT 模型的训练过程,我们在数据集中包含原始的、面向漏洞利用的片段和来自先前通用 Python 数据集的片段。这使 NMT 模型能够生成可以混合通用指令和面向漏洞利用指令的代码。在 Python 代码生成的几个数据集中,我们选择 Django 数据集,因为它的规模很大。该语料库包含来自 Django Web 应用程序框架的 14,426 对独特的 Python 语句及其对应的英文描述。因此,我们的最终数据集包含 15,540 对独特的 Python 代码片段以及它们在自然语言中的意图。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
EVIL-Encoders数据集专注于为安全漏洞生成Python代码,包含1,114个来自真实漏洞利用的代码片段及其英语意图,涵盖低级操作如数据转换和位级切片。为增强训练效果,它还整合了Django数据集的14,426对通用Python语句,总计提供15,540对独特的代码-意图对,用于支持自然语言到代码的翻译模型开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作