PDSP-Bench
收藏arXiv2025-04-15 更新2025-04-19 收录
下载链接:
https://github.com/pratyushagnihotri/PDSPBench
下载链接
链接失效反馈官方服务:
资源简介:
PDSP-Bench是一个为并行和分布式流处理设计的基准测试系统,由德国达姆施塔特工业大学等机构的研究人员开发。该系统旨在解决现有基准测试系统在并行数据流分析方面的不足,支持异构硬件环境,并能够集成机器学习模型以优化SPS工作负载。PDSP-Bench能够创建和管理大规模的流数据集,用于训练和评估针对流查询执行的机器学习模型,支持合成和真实世界的工作负载,以及用户定义的并行查询计划。
PDSP-Bench is a benchmarking system designed for parallel and distributed stream processing, developed by researchers from Technische Universität Darmstadt and other research institutions. This system aims to address the limitations of existing benchmarking systems in the field of parallel data stream analysis, supports heterogeneous hardware environments, and enables the integration of machine learning models to optimize SPS workloads. PDSP-Bench can create and manage large-scale stream datasets for training and evaluating machine learning models tailored for stream query execution, supporting both synthetic and real-world workloads, as well as user-defined parallel query plans.
提供机构:
德国达姆施塔特工业大学, 德国伊尔梅瑙工业大学, 德国达姆施塔特DFKI
创建时间:
2025-04-15
搜集汇总
数据集介绍

构建方式
PDSP-Bench数据集通过集成真实应用和合成查询构建,采用并行查询结构(PQP)和异构硬件资源,支持机器学习模型的训练与评估。其构建过程包括数据流生成、查询计划枚举以及资源管理,通过CloudLab等测试平台实现分布式环境的模拟。
特点
PDSP-Bench数据集专注于并行和分布式流处理,具备异构硬件支持、多样化查询结构和实时数据流处理能力。其独特之处在于能够生成大规模流式数据,并集成机器学习模型进行性能预测和优化。数据集覆盖多种真实应用场景和合成查询,为流处理系统的全面评估提供了丰富资源。
使用方法
PDSP-Bench数据集的使用方法包括通过Web用户界面配置查询计划和硬件资源,执行并行查询并收集性能指标。用户可以选择现有应用或创建新的查询结构,并通过自动化管理器进行工作负载生成和结果可视化。此外,数据集支持机器学习模型的训练和评估,用户可以通过ML管理器比较不同模型的性能。
背景与挑战
背景概述
PDSP-Bench是由德国达姆施塔特工业大学、伊尔梅瑙工业大学及DFKI达姆施塔特分所的研究团队于2024年推出的并行分布式流处理基准测试系统。该系统旨在解决现代流处理系统(SPS)在异构分布式环境中性能评估的空白,特别关注算子并行度和资源利用效率的核心研究问题。作为TPCTC 2024会议收录的成果,PDSP-Bench通过集成机器学习模型和真实场景工作负载,为Apache Flink等流处理系统提供了包含14类真实应用和9类合成查询的基准测试套件,填补了传统基准测试仅支持同构环境顺序数据流的局限性。
当前挑战
PDSP-Bench面临三重挑战:1) 表达能力局限:现有基准如StreamBench缺乏对窗口函数等关键并行算子的支持,难以评估复杂数据流图;2) 异构硬件适配:真实场景如Netflix需在50+异构集群部署,而DSPBench等系统仅支持同构硬件测试;3) 机器学习集成:传统基准缺乏对学习型SPS组件的评估框架,无法公平比较不同成本模型的训练效率。构建过程中需攻克并行度枚举策略优化、异构资源动态映射以及流式工作负载特征提取等技术难点,以支持400万事件/秒的高吞吐测试场景。
常用场景
经典使用场景
在分布式流处理系统的性能评估领域,PDSP-Bench通过构建并行查询结构(PQP)和异构硬件环境,为Apache Flink等流处理系统提供了标准化的基准测试框架。该系统支持从简单线性查询到复杂多路连接操作的全方位测试,同时整合机器学习模型进行工作负载预测,典型应用包括实时广告分析、智能电网监测等数据密集型场景。其模块化设计允许用户自定义查询参数、并行度策略及硬件配置,为研究并行流处理的非线性性能特征提供了实验基础。
实际应用
在实际工业场景中,PDSP-Bench已成功应用于Netflix等企业的超大规模流处理系统优化。其生成的4百万事件/秒的高吞吐测试数据,可模拟社交媒体实时分析、物联网传感器网络等真实业务场景。系统支持的Click-Through Rate计算、交通流量预测等14种预设应用,直接对应数字广告、智慧城市等领域的核心需求。通过规则化并行度枚举策略,企业能快速识别最优资源配置方案,在50+异构集群的复杂环境中实现资源利用率提升30%以上。
衍生相关工作
该数据集催生了流处理优化领域的多项标志性研究:基于其基准数据训练的ZeroTune模型(Agnihotri等,2024)实现了零样本并行度调优;CoStream框架(Heinrich等,2024)利用PDSP-Bench的异构环境测试数据开发了边缘-云协同部署算法。在基准测试方法论层面,其创新设计启发TPC组织启动流处理专项基准TPCx-SP的制定,同时为MLPerf等AI基准扩展实时数据处理评估维度提供了范式参考。
以上内容由遇见数据集搜集并总结生成



