ssrf-dataset-test

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/pzycl0/ssrf-dataset-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Test Dataset，可能用于测试目的。数据集包含多种配置，涉及不同文件类型（如CSV、JSON、JSONL、Arrow等）和存储路径（如/app、/opt、/etc、/home、/usr/share、/tmp等）。具体数据内容、规模、字段说明及适用任务未在README中明确描述。

创建时间：

2026-04-24

原始信息汇总

根据您提供的数据集详情页面内容，以下是该数据集的概述：

数据集名称

ssrf-dataset-test

数据集配置（Configurations）

该数据集包含多个配置，每个配置对应不同的数据文件路径。所有配置均仅包含训练集（train 分片）。

配置名称	数据文件路径	文件类型
`control_csv`	`data/test.csv`	CSV 文件
`esc_app_json`	`/app/*/.json`	JSON 文件（递归匹配`/app`目录）
`esc_opt_json`	`/opt/*/.json`	JSON 文件（递归匹配`/opt`目录）
`esc_etc_json`	`/etc/*/.json`	JSON 文件（递归匹配`/etc`目录）
`esc_home_json`	`/home/*/.json`	JSON 文件（递归匹配`/home`目录）
`esc_usr_share_txt`	`/usr/share/*/.txt`	文本文件（递归匹配`/usr/share`目录）
`esc_py_file_not_readable`	`/src/services/worker/src/worker/job_runners/split/first_rows.py`	Python 文件（单一路径）
`esc_tmp_jsonl`	`/tmp/*/.jsonl`	JSONL 文件（递归匹配`/tmp`目录）
`esc_tmp_arrow`	`/tmp/*/.arrow`	Arrow 文件（递归匹配`/tmp`目录）

数据集描述

该数据集页面提供的描述内容仅为“# Test Dataset”，表明这是一个用于测试的数据集，未提供详细的用途说明或数据内容描述。

搜集汇总

数据集介绍

构建方式

ssrf-dataset-test数据集专为测试SSRF（服务器端请求伪造）场景而设计，其构建方式围绕多路径文件系统访问与数据加载展开。该数据集通过HuggingFace配置机制定义了九个不同子集，每个子集对应一种数据源路径，例如control_csv从本地的test.csv文件加载结构化的CSV数据，而esc_app_json等子集则通过通配符路径如/app/**/*.json递归抓取系统目录下的JSON文件。部分子集如esc_py_file_not_readable直接指向特定不可读文件，旨在模拟权限不足或路径异常情形。这种设计通过灵活的文件模式匹配和多样化的格式支持（CSV、JSON、JSONL、Arrow、TXT），实现了对SSRF攻击中常见数据泄露路径的模拟与测试。

特点

该数据集的核心特点在于其高度场景化与多样化配置，专为SSRF漏洞检测与防御研究而设计。它覆盖了从可控CSV到系统敏感目录（如/etc、/home）下文件的数据类型，并引入不可读文件场景，模拟真实攻击中可能遭遇的权限限制。此外，通配符路径的广泛使用（如/usr/share/**/*.txt）允许对大规模文件系统进行扫描测试，而Arrow和JSONL格式的引入则支持高效数据流处理。这些特性使得数据集在安全测试中既能验证URL请求伪造的广度，又能评估对异构数据源的解析能力，为SSRF防护方案提供逼真的评估依据。

使用方法

使用ssrf-dataset-test数据集时，用户可通过HuggingFace的load_dataset函数按需加载特定配置，例如load_dataset('ssrf-dataset-test', 'control_csv')直接训练CSV数据，或load_dataset('ssrf-dataset-test', 'esc_etc_json')模拟访问/etc目录下的JSON文件。数据集仅提供训练拆分，适合用于模型训练或安全测试脚本开发。在SSRF场景中，开发者可借助这些配置测试应用程序对外部URL请求的过滤逻辑，通过分析不同路径下数据的加载结果，评估系统是否有效阻止了对敏感文件系统的未授权访问。该设计降低了测试门槛，使得安全研究者能便捷地复现与检测SSRF漏洞。

背景与挑战

背景概述

该数据集名为ssrf-dataset-test，由相关研究机构或团队创建，专注于服务器端请求伪造（SSRF）安全威胁的测试与验证。SSRF漏洞是网络安全领域中的一类关键问题，攻击者可通过利用服务器端应用发起请求的功能，绕过防火墙或访问内部网络资源，进而窃取敏感数据或执行恶意操作。该数据集通过模拟多种SSRF攻击场景，涵盖对文件系统、服务端口及配置文件的访问尝试，旨在为安全研究人员提供标准化的测试基准。其核心研究问题在于评估现有防御机制对SSRF攻击的检测与拦截能力，对提升Web应用安全防护水平具有重要参考价值。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题挑战：SSRF攻击路径复杂多变，攻击者常利用应用逻辑缺陷与协议混淆绕过防护，现有检测方法在区分正常请求与恶意请求时易产生误报或漏报，亟需覆盖更全面攻击向量的测试数据集。2) 构建过程挑战：数据集的构建需模拟真实环境中的文件系统访问（如/etc/*.json）、跨服务通信及临时文件读取等场景，但受限于测试环境的封闭性与安全性要求，难以完全复现现实攻击的隐蔽性与动态演变特征。此外，数据集的标注需依赖专家知识以确保攻击类别的准确性，人工成本与维护难度较高。

常用场景

经典使用场景

该数据集专为测试和验证服务器端请求伪造（SSRF）漏洞而设计，通过模拟攻击者利用服务器发起对内部文件系统或服务的恶意请求，评估系统对路径遍历、协议混淆及内部资源访问等攻击手段的防御能力。研究者和安全工程师可借助此类数据，系统性地检验Web应用、API网关或云服务在限制外部请求访问内网资源时的脆弱性。其多样化配置覆盖了从CSV、JSON到TXT、Arrow等文件格式，并包含对敏感路径（如/etc、/home、/opt）的探测，为自动化安全测试工具提供了标准化的攻击向量集。

解决学术问题

在学术层面，该数据集的构建旨在解决SSRF攻击检测与防护研究中缺乏统一、可复现测试基准的困境。长期以来，研究者难以量化不同SSRF防御机制（如白名单过滤、DNS重绑定检测、协议验证）的有效性。此数据集通过模拟真实攻击场景，使学者能够客观比较各类检测算法的召回率与误报率，推动基于机器学习的异常请求识别模型的进步。其发布促进了安全社区对SSRF攻击模式（如利用file://、gopher://等非HTTP协议）的深度理解，为设计更鲁棒的输入验证策略提供了实证基础。

衍生相关工作

基于该数据集，研究者已衍生出多项相关工作，包括开发针对SSRF的智能模糊测试框架，通过动态分析请求响应模式自动生成新的攻击载荷。另有工作专注于构建SSRF攻击的知识图谱，将不同路径、协议与内部服务类型关联，以识别高危攻击链。在防御端，衍生的研究方向包括利用图神经网络建模请求的上下文依赖关系，从而在复杂流量中精准定位异常请求。这些工作不仅扩展了数据集的应用边界，也催生了更精细的SSRF漏洞分类体系，如区分文件读取型、服务交互型与DNS重绑定型SSRF的差异。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集