WebShell-DataSet-without-any-obfuscation-method

github2026-03-20 更新2026-03-21 收录

下载链接：

https://github.com/iop537286-cyber/WebShell-DataSet-without-any-obfuscation-method

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一组基线PHP WebShell样本，用作后续分层转换和评估实验的原始输入集。所有样本都是原始的、未混淆的WebShell，保留了其原始的命令接收逻辑和执行行为，没有任何词法、控制流、数据流或其他混淆应用。该数据集的目的是为研究大型语言模型如何在受控实验设置下生成转换后的WebShell变体提供统一的起点。

This dataset comprises a collection of baseline PHP WebShell samples, which serve as the raw input set for subsequent layered transformation and evaluation experiments. All samples are raw and unobfuscated WebShells, retaining their original command reception logic and execution behaviors, with no lexical, control-flow, data-flow, or other obfuscation techniques applied. The purpose of this dataset is to provide a unified starting point for researching how large language models (LLMs) generate transformed WebShell variants under controlled experimental settings.

创建时间：

2026-03-20

原始信息汇总

WebShell-DataSet-without-any-obfuscation-method 数据集概述

数据集简介

本数据集包含一系列基线PHP WebShell样本，用作后续分层转换与评估实验的原始输入集。所有样本均为原始、未混淆的WebShell，意味着它们保留了原始的命令接收逻辑与执行行为，未应用任何词法、控制流、数据流或其他混淆手段。

数据集特征

语言：PHP
样本类型：原始WebShell样本
混淆状态：无
工作流角色：分层样本生成的基线输入数据集
预期用途：代码转换、分层重写与样本演化的受控研究

输入入口类别

数据集根据不同的命令入口通道（即从请求上下文中接收命令内容的不同方式）进行组织。当前数据集包含以下入口类别：

BODY_POST：通过POST相关机制从HTTP请求正文接收命令数据。
COOKIE：从Cookie字段读取命令内容。
FILE_UPLOAD：从上传的文件元数据或与文件相关的请求结构中获取命令相关内容。
HEADER：从HTTP头部字段读取命令内容。
META：使用元数据相关的请求载体或辅助请求关联字段作为命令入口源。
SESSION_META：使用会话关联元数据作为命令入口通道。
URL_QUERY：通过URL查询参数接收命令内容。

命令执行行为

数据集中的所有样本均为基线命令执行WebShell。每个样本包含：

一个命令入口点，用于获取外部命令内容；
一个命令执行点，用于将接收到的命令传递给底层执行逻辑。在此阶段，数据集未引入任何额外的隐藏、结构扰动或转换策略，命令接收与执行逻辑保持其直接原始形式。

目录组织

数据集按命令入口类别分组。每个顶级目录对应一种命令入口类型，例如：

BODY_POST/
COOKIE/
FILE_UPLOAD/
HEADER/
META/
SESSION_META/
URL_QUERY/ 此组织方式便于后续实验阶段进行基于类别的采样、批量处理与分层转换。

实验角色

在整个研究工作流中，本数据集作为起始样本池。后续的转换样本通过对这些基线文件应用结构化提示驱动的重写策略生成。因此，本数据集应被理解为：

原始样本源；
未混淆的基线集；
分层转换管道的参考输入。

注意事项

所有样本均为基线样本，未应用任何混淆。
数据集旨在支持代码转换与分层样本生成的受控实验研究。
文件夹结构反映不同的命令入口通道，而非不同的混淆方法。
后续衍生的任何转换或分层变体应视为独立数据集或派生输出，而非此基线集的一部分。

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，构建一个纯净且标准化的基准数据集对于分析恶意代码的演变至关重要。WebShell-DataSet-without-any-obfuscation-method 的构建过程聚焦于收集未经任何混淆处理的原始 PHP WebShell 样本，这些样本直接保留了其命令接收与执行的原始逻辑。数据集按照不同的命令输入通道进行系统化组织，例如通过 HTTP 请求体、Cookie、文件上传元数据、URL 查询参数等多种方式获取外部指令，从而确保了输入源的多样性。每个样本均明确区分命令入口点与执行点，为后续的分层转换实验提供了统一的初始参考集合。

特点

该数据集的核心特点在于其纯净性与结构性。所有样本均未经过词法、控制流或数据流等任何形式的混淆处理，完整展现了 WebShell 的原始行为模式。数据集依据命令入口机制划分为多个类别，如 BODY_POST、COOKIE、FILE_UPLOAD 等，这种分类方式不仅反映了攻击请求的多样性，也为研究不同输入通道下的代码特征提供了清晰框架。样本设计强调可识别性，命令接收与执行路径直接明了，使得数据集成为研究代码转换与样本演化的理想基准。

使用方法

在实验应用中，该数据集主要作为分层样本生成流程的起点。研究人员可以基于这些原始样本，通过提示驱动的结构化重写策略，生成经过变换的 WebShell 变体，以评估大语言模型在代码转换中的表现。数据集按命令入口类别分目录存放，便于进行类别级的批量处理与采样。使用时应将其视为非混淆的基准输入集，任何衍生出的转换样本需作为独立输出处理，以保持实验的对照性与可重复性。

背景与挑战

背景概述

WebShell-DataSet-without-any-obfuscation-method 是一个专注于网络安全领域的基础数据集，旨在为研究大型语言模型在代码转换与样本演化中的应用提供原始输入。该数据集由相关研究机构或团队构建，核心研究问题聚焦于如何利用未混淆的原始WebShell样本作为基准，探索在受控实验环境下进行分层变换与评估的方法。其创建源于对WebShell检测技术演进的需求，通过提供清晰可辨的命令接收与执行逻辑，该数据集为后续的代码重写、样本生成及安全模型训练奠定了标准化基础，对推动智能化恶意代码分析与防御研究具有重要影响力。

当前挑战

该数据集所解决的领域问题在于WebShell检测与对抗性样本生成，面临的挑战包括原始样本的行为多样性有限，可能无法全面覆盖实际攻击中复杂的混淆与变种技术；同时，数据集的构建过程需确保样本的纯净性与代表性，避免引入无关噪声或偏差，这要求严格的样本筛选与分类标准。此外，作为基准数据集，其在后续分层变换实验中的可扩展性与一致性维护也是一项关键挑战，需平衡原始行为保持与变换引入的复杂性。

常用场景

经典使用场景

在网络安全与恶意代码分析领域，WebShell-DataSet-without-any-obfuscation-method 数据集为研究代码转换与样本演化提供了基准起点。该数据集汇集了未经混淆处理的原始 PHP WebShell 样本，保留了清晰的命令接收与执行逻辑，使其成为评估大语言模型在受控环境下生成变种样本的理想基础。研究人员通常利用这些样本作为初始输入，通过分层转换策略模拟攻击代码的演化过程，从而深入探究代码重写技术在安全检测中的潜力。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作，主要集中在代码自动转换与安全检测增强方向。例如，研究者利用该基准样本集，开发了基于提示驱动的分层重写框架，以生成多样化的 WebShell 变体；同时，这些变体被用于评估静态分析与动态检测方法的有效性。相关成果进一步推动了对抗性机器学习在网络安全领域的应用，并为构建更稳健的恶意代码分类器提供了数据支撑。

数据集最近研究