pzycl0/ssrf-dataset-test

Name: pzycl0/ssrf-dataset-test
Creator: pzycl0
Published: 2026-04-25 15:15:43
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/pzycl0/ssrf-dataset-test

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: control_csv data_files: - split: train path: data/test.csv - config_name: esc_app_json data_files: - split: train path: "/app/**/*.json" - config_name: esc_opt_json data_files: - split: train path: "/opt/**/*.json" - config_name: esc_etc_json data_files: - split: train path: "/etc/**/*.json" - config_name: esc_home_json data_files: - split: train path: "/home/**/*.json" - config_name: esc_usr_share_txt data_files: - split: train path: "/usr/share/**/*.txt" - config_name: esc_py_file_not_readable data_files: - split: train path: "/src/services/worker/src/worker/job_runners/split/first_rows.py" - config_name: esc_tmp_jsonl data_files: - split: train path: "/tmp/**/*.jsonl" - config_name: esc_tmp_arrow data_files: - split: train path: "/tmp/**/*.arrow" --- # Test Dataset

提供机构：

pzycl0

搜集汇总

数据集介绍

构建方式

该数据集名为ssrf-dataset-test，其构建方式基于HuggingFace Datasets库的多配置加载机制。数据集共包含九个配置项，其中control_csv配置指向本地CSV文件，作为控制组数据来源；其余八个配置均为‘esc_’前缀，分别对应服务器端路径下的各类文件，包括JSON、TXT、JSONL及Arrow格式，路径覆盖/app、/opt、/etc、/home、/usr/share、/tmp等关键目录。这些配置通过glob模式匹配指定目录下的全部文件，形成一个多样化的数据集合，旨在模拟服务端请求伪造场景下的数据访问模式。

使用方法

使用该数据集时，可通过HuggingFace的load_dataset函数指定配置名称来加载特定子集。例如，加载控制组数据可使用ssrf-dataset-test的control_csv配置，加载应用层JSON数据则选择esc_app_json配置。每个配置均包含一个名为train的分割，数据文件路径已预先定义。用户可根据测试目标灵活选取或组合多个配置，以验证数据管道在合法路径与潜在恶意路径下的行为差异。此外，esc_py_file_not_readable配置可用于测试程序对不可读文件的处理逻辑，而esc_tmp_jsonl与esc_tmp_arrow则针对临时目录下的序列化数据格式。

背景与挑战

背景概述

ssrf-dataset-test 数据集由 HuggingFace 平台维护，创建于现代机器学习模型安全评估需求日益增长的背景下。该数据集聚焦于服务器端请求伪造（SSRF）攻击场景，核心研究问题在于构建一个用于检测和防御 SSRF 漏洞的基准测试集。主要研究人员或机构依托 HuggingFace 社区协作，旨在模拟攻击者通过构造恶意请求迫使服务器向内部网络发送数据的行为。该数据集的影响力体现在为网络安全领域提供了标准化测试用例，推动了模型对 SSRF 攻击的识别能力，成为评估文件路径泄露和内部资源扫描等风险的重要工具。

当前挑战

该数据集解决的领域问题主要是 SSRF 攻击的检测与防御，其挑战包括：1) 文件系统遍历的复杂度，如配置中涵盖 `/etc/**/*.json` 和 `/home/**/*.json` 等多路径模式，需模拟攻击者绕过权限限制访问敏感文件；2) 数据多样性不足，当前仅包含 JSON、CSV 等少数格式，难以覆盖现实世界中丰富的文件类型；3) 构建过程中面临路径通配符解析歧义，如 `/tmp/**/*.arrow` 和 `/tmp/**/*.jsonl` 的递归匹配可能引入非目标文件，影响标签准确性与模型泛化能力。

常用场景

经典使用场景

该数据集名为ssrf-dataset-test，其设计初衷在于模拟和测试服务器端请求伪造（SSRF）攻击场景，尤其是针对文件读取与路径遍历的安全漏洞。通过配置多样化的数据路径，如控制组（control_csv）以及逃逸至应用、系统、临时目录的各类文件格式（JSON、TXT、JSONL、ARROW），该数据集为研究人员提供了一个高度仿真的测试环境，用于评估和提升模型在检测恶意URL或文件路径时的鲁棒性和准确性。其经典使用场景涵盖对SSRF攻击中非法文件访问行为的识别与分类。

解决学术问题

在学术研究中，SSRF攻击因其能绕过防火墙访问内网资源而备受关注，但缺乏标准化的测试数据集。该数据集系统地解决了这一空白，通过构造包含正常与恶意路径的样本，助力研究者在网络安全领域探索更高效的异常检测算法。其意义在于为基于机器学习的SSRF防御模型提供了可重复实验的基准，推动了从规则匹配向智能检测范式的转型，并显著提升了相关模型在真实攻防环境中的泛化能力。

实际应用

实际应用中，该数据集可用于训练和验证入侵检测系统（IDS）或Web应用防火墙（WAF）的SSRF攻击拦截模块。企业安全团队可基于此数据设计防护策略，识别来自外部请求的异常路径模式，例如尝试读取/etc/passwd或/tmp下的敏感文件。此外，云服务提供商和DevOps流水线也可利用该数据集进行安全审计，确保应用程序在处理用户输入时不会暴露内部文件系统。

数据集最近研究