five

Web Fuzzing Commons (WFC) and Web Fuzzing Dataset (WFD)

收藏
arXiv2025-09-02 更新2025-09-05 收录
下载链接:
https://github.com/WebFuzzing/Commons, https://github.com/WebFuzzing/Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Web Fuzzing Commons (WFC) 是一套开源库和模式定义,用于声明式地指定认证信息和目录化不同类型的故障,以便模糊器可以自动检测。Web Fuzzing Dataset (WFD) 是一个包含 36 个开源 API 的集合,所有必要的脚手架都包含在内,可以轻松地使用模糊器进行实验,并得到 WFC 的支持。该数据集旨在解决 REST API 模糊测试中的三个主要问题:如何处理 API 认证、如何分类和比较不同模糊器发现的故障类型、以及如何使用案例研究来促进模糊器之间的公平比较。

Web Fuzzing Commons (WFC) is a suite of open-source libraries and schema definitions for declaratively specifying authentication credentials and cataloging different types of faults, enabling automatic detection by fuzzers. Web Fuzzing Dataset (WFD) is a collection of 36 open-source APIs, equipped with all necessary scaffolding to enable straightforward experimentation with fuzzers and fully supported by WFC. This dataset aims to address three core challenges in REST API fuzzing: how to handle API authentication, how to classify and compare fault types discovered by different fuzzers, and how to use case studies to facilitate fair comparisons between fuzzers.
提供机构:
Erciyes University, Turkey; Beihang University, China; Kristiania University College, Norway; Oslo Metropolitan University, Norway
创建时间:
2025-09-02
搜集汇总
数据集介绍
main_image_url
构建方式
Web Fuzzing Dataset (WFD) 的构建基于对36个开源REST API的系统性收集与标准化处理。这些API涵盖Java和Kotlin实现的JVM平台应用,包括政府公共系统(如德国cwa-verification、挪威familie-ba-sak)及商业开源项目(如languagetool)。每个API均配备完整的实验脚手架:Docker Compose文件用于环境部署,预初始化数据库支持身份验证测试,集成JaCoCo代码覆盖率收集工具和mitmproxy HTTP流量监控。身份验证配置采用WFC标准化的YAML格式声明,确保跨工具的一致性。数据集规模达657,162行代码和1,487个端点,是目前学术界最大的REST API实验基准。
使用方法
使用WFD需遵循标准化实验流程:通过Docker Compose启动目标API及其依赖服务,配置WFC身份验证文件供测试工具调用。测试过程中,mitmproxy记录端点覆盖与HTTP状态码,JaCoCo收集代码覆盖率数据。实验结束后,工具可输出WFC格式的测试报告(JSON),包含故障类型标识和端点覆盖统计。数据集提供自动化脚本批量运行实验,支持多工具并行测试。研究人员可通过比较不同工具在相同API集合上的覆盖率、故障检测数量及测试用例有效性(如断言通过率)进行评估,所有实验数据确保可重现。
背景与挑战
背景概述
Web Fuzzing Commons(WFC)与Web Fuzzing Dataset(WFD)由Omur Sahin、Man Zhang和Andrea Arcuri等研究人员于2025年提出,旨在解决REST API模糊测试领域的核心研究问题。该数据集的创建背景源于云计算应用的广泛普及,REST API作为最常见的Web服务形式,其安全性与可靠性测试成为学术界与工业界关注的重点。WFC提供了一套开源库与模式定义,用于声明式指定认证信息并分类模糊测试工具可自动检测的故障类型;WFD则包含36个开源API及其实验脚手架,支持研究者进行可重复的实证研究。这一数据集通过标准化认证配置与故障报告格式,显著提升了REST API模糊测试实验的可靠性与可比性,对推动自动化测试技术的发展和工业应用具有重要影响力。
当前挑战
WFC与WFD面临的挑战主要包括两方面:领域问题挑战与构建过程挑战。在领域问题方面,REST API模糊测试需解决认证机制多样性(如静态凭证与动态令牌)、故障类型标准化分类(如HTTP 500错误与安全漏洞)以及实验案例公平性比较等难题;构建过程中,需克服开源API的异构性(如不同数据库依赖与框架差异)、实验环境可复现性(如Docker容器化与覆盖率收集)以及工具集成复杂性(如多语言支持与认证配置统一)。此外,数据集的扩展性与维护性也要求持续集成新的API与故障类型,以适应快速演进的技术生态。
常用场景
经典使用场景
在REST API模糊测试研究中,Web Fuzzing Commons(WFC)和Web Fuzzing Dataset(WFD)作为标准化实验框架,被广泛用于评估不同模糊测试工具的性能。该数据集通过提供统一的认证配置格式和故障分类标准,使得研究人员能够在36个开源REST API上执行可重复的对比实验,例如比较代码覆盖率、端点覆盖率和故障检测能力。其经典应用场景包括工具性能基准测试、新算法验证以及跨研究的结果可复现性分析。
解决学术问题
WFC/WFD解决了REST API模糊测试领域的三个核心学术问题:一是通过声明式认证模式消除了工具间认证配置的异构性,使得跨工具对比实验成为可能;二是建立了标准化的故障分类体系(如HTTP 500错误、模式验证失败等),为量化模糊测试工具的缺陷检测能力提供了统一度量标准;三是通过提供大规模、多样化的API案例集(涵盖15个需认证的API和21个无需认证的API),缓解了以往研究中因案例选择偏差导致的结论局限性问题,显著提升了实证研究的科学严谨性。
实际应用
在工业实践中,WFC的认证配置标准和故障报告格式可直接集成到企业级测试流程中,帮助开发团队快速适配多种模糊测试工具。例如,使用WFC的YAML配置可统一管理OAuth2、Cookie等动态认证机制,避免为不同工具重复编写认证脚本。同时,WFD的Docker化API环境为企业提供了即插即用的测试基准,支持在持续集成流水线中自动化执行安全性和鲁棒性测试,尤其适用于金融、物联网等对API质量要求极高的领域。
数据集最近研究
最新研究方向
在REST API模糊测试领域,Web Fuzzing Commons(WFC)和Web Fuzzing Dataset(WFD)的推出标志着标准化实验范式的重大进展。当前研究聚焦于三大核心挑战:认证机制的统一处理、多工具间故障类型的标准化分类与比对,以及大规模开源API案例库的构建。WFC通过声明式认证配置Schema和标准化测试报告格式,解决了跨工具认证配置复用和结果可比性问题,而WFD提供的36个真实REST API及其完整实验脚手架(包括Docker化部署、覆盖率收集和认证配置),为学术界提供了迄今规模最大、可复现的实验基准。前沿研究正围绕WFC/WFD生态展开,包括基于强化学习的自适应测试生成、多模态故障检测预言机制设计,以及跨语言API测试的泛化能力评估。这一体系显著提升了实验严谨性和工业转化潜力,已被应用于美团、大众汽车等企业的实际测试场景,推动着模糊测试技术从学术研究向产业实践的高效迁移。
相关研究论文
  • 1
    WFC/WFD: Web Fuzzing Commons, Dataset and Guidelines to Support Experimentation in REST API FuzzingErciyes University, Turkey; Beihang University, China; Kristiania University College, Norway; Oslo Metropolitan University, Norway · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作