ssrf-dataset-test
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://huggingface.co/datasets/pzycl0/ssrf-dataset-test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Test Dataset,可能用于测试目的。数据集包含多种配置,涉及不同文件类型(如CSV、JSON、JSONL、Arrow等)和存储路径(如/app、/opt、/etc、/home、/usr/share、/tmp等)。具体数据内容、规模、字段说明及适用任务未在README中明确描述。
创建时间:
2026-04-24
原始信息汇总
根据您提供的数据集详情页面内容,以下是该数据集的概述:
数据集名称
ssrf-dataset-test
数据集配置(Configurations)
该数据集包含多个配置,每个配置对应不同的数据文件路径。所有配置均仅包含训练集(train 分片)。
| 配置名称 | 数据文件路径 | 文件类型 |
|---|---|---|
control_csv |
data/test.csv |
CSV 文件 |
esc_app_json |
/app/**/*.json |
JSON 文件(递归匹配/app目录) |
esc_opt_json |
/opt/**/*.json |
JSON 文件(递归匹配/opt目录) |
esc_etc_json |
/etc/**/*.json |
JSON 文件(递归匹配/etc目录) |
esc_home_json |
/home/**/*.json |
JSON 文件(递归匹配/home目录) |
esc_usr_share_txt |
/usr/share/**/*.txt |
文本文件(递归匹配/usr/share目录) |
esc_py_file_not_readable |
/src/services/worker/src/worker/job_runners/split/first_rows.py |
Python 文件(单一路径) |
esc_tmp_jsonl |
/tmp/**/*.jsonl |
JSONL 文件(递归匹配/tmp目录) |
esc_tmp_arrow |
/tmp/**/*.arrow |
Arrow 文件(递归匹配/tmp目录) |
数据集描述
该数据集页面提供的描述内容仅为“# Test Dataset”,表明这是一个用于测试的数据集,未提供详细的用途说明或数据内容描述。
搜集汇总
数据集介绍

构建方式
ssrf-dataset-test数据集专为测试SSRF(服务器端请求伪造)场景而设计,其构建方式围绕多路径文件系统访问与数据加载展开。该数据集通过HuggingFace配置机制定义了九个不同子集,每个子集对应一种数据源路径,例如control_csv从本地的test.csv文件加载结构化的CSV数据,而esc_app_json等子集则通过通配符路径如/app/**/*.json递归抓取系统目录下的JSON文件。部分子集如esc_py_file_not_readable直接指向特定不可读文件,旨在模拟权限不足或路径异常情形。这种设计通过灵活的文件模式匹配和多样化的格式支持(CSV、JSON、JSONL、Arrow、TXT),实现了对SSRF攻击中常见数据泄露路径的模拟与测试。
特点
该数据集的核心特点在于其高度场景化与多样化配置,专为SSRF漏洞检测与防御研究而设计。它覆盖了从可控CSV到系统敏感目录(如/etc、/home)下文件的数据类型,并引入不可读文件场景,模拟真实攻击中可能遭遇的权限限制。此外,通配符路径的广泛使用(如/usr/share/**/*.txt)允许对大规模文件系统进行扫描测试,而Arrow和JSONL格式的引入则支持高效数据流处理。这些特性使得数据集在安全测试中既能验证URL请求伪造的广度,又能评估对异构数据源的解析能力,为SSRF防护方案提供逼真的评估依据。
使用方法
使用ssrf-dataset-test数据集时,用户可通过HuggingFace的load_dataset函数按需加载特定配置,例如load_dataset('ssrf-dataset-test', 'control_csv')直接训练CSV数据,或load_dataset('ssrf-dataset-test', 'esc_etc_json')模拟访问/etc目录下的JSON文件。数据集仅提供训练拆分,适合用于模型训练或安全测试脚本开发。在SSRF场景中,开发者可借助这些配置测试应用程序对外部URL请求的过滤逻辑,通过分析不同路径下数据的加载结果,评估系统是否有效阻止了对敏感文件系统的未授权访问。该设计降低了测试门槛,使得安全研究者能便捷地复现与检测SSRF漏洞。
背景与挑战
背景概述
该数据集名为ssrf-dataset-test,由相关研究机构或团队创建,专注于服务器端请求伪造(SSRF)安全威胁的测试与验证。SSRF漏洞是网络安全领域中的一类关键问题,攻击者可通过利用服务器端应用发起请求的功能,绕过防火墙或访问内部网络资源,进而窃取敏感数据或执行恶意操作。该数据集通过模拟多种SSRF攻击场景,涵盖对文件系统、服务端口及配置文件的访问尝试,旨在为安全研究人员提供标准化的测试基准。其核心研究问题在于评估现有防御机制对SSRF攻击的检测与拦截能力,对提升Web应用安全防护水平具有重要参考价值。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题挑战:SSRF攻击路径复杂多变,攻击者常利用应用逻辑缺陷与协议混淆绕过防护,现有检测方法在区分正常请求与恶意请求时易产生误报或漏报,亟需覆盖更全面攻击向量的测试数据集。2) 构建过程挑战:数据集的构建需模拟真实环境中的文件系统访问(如/etc/*.json)、跨服务通信及临时文件读取等场景,但受限于测试环境的封闭性与安全性要求,难以完全复现现实攻击的隐蔽性与动态演变特征。此外,数据集的标注需依赖专家知识以确保攻击类别的准确性,人工成本与维护难度较高。
常用场景
经典使用场景
该数据集专为测试和验证服务器端请求伪造(SSRF)漏洞而设计,通过模拟攻击者利用服务器发起对内部文件系统或服务的恶意请求,评估系统对路径遍历、协议混淆及内部资源访问等攻击手段的防御能力。研究者和安全工程师可借助此类数据,系统性地检验Web应用、API网关或云服务在限制外部请求访问内网资源时的脆弱性。其多样化配置覆盖了从CSV、JSON到TXT、Arrow等文件格式,并包含对敏感路径(如/etc、/home、/opt)的探测,为自动化安全测试工具提供了标准化的攻击向量集。
解决学术问题
在学术层面,该数据集的构建旨在解决SSRF攻击检测与防护研究中缺乏统一、可复现测试基准的困境。长期以来,研究者难以量化不同SSRF防御机制(如白名单过滤、DNS重绑定检测、协议验证)的有效性。此数据集通过模拟真实攻击场景,使学者能够客观比较各类检测算法的召回率与误报率,推动基于机器学习的异常请求识别模型的进步。其发布促进了安全社区对SSRF攻击模式(如利用file://、gopher://等非HTTP协议)的深度理解,为设计更鲁棒的输入验证策略提供了实证基础。
衍生相关工作
基于该数据集,研究者已衍生出多项相关工作,包括开发针对SSRF的智能模糊测试框架,通过动态分析请求响应模式自动生成新的攻击载荷。另有工作专注于构建SSRF攻击的知识图谱,将不同路径、协议与内部服务类型关联,以识别高危攻击链。在防御端,衍生的研究方向包括利用图神经网络建模请求的上下文依赖关系,从而在复杂流量中精准定位异常请求。这些工作不仅扩展了数据集的应用边界,也催生了更精细的SSRF漏洞分类体系,如区分文件读取型、服务交互型与DNS重绑定型SSRF的差异。
以上内容由遇见数据集搜集并总结生成



