five

PDSP-Bench

收藏
arXiv2025-04-15 更新2025-04-19 收录
下载链接:
https://github.com/pratyushagnihotri/PDSPBench
下载链接
链接失效反馈
官方服务:
资源简介:
PDSP-Bench是一个为并行和分布式流处理设计的基准测试系统,由德国达姆施塔特工业大学等机构的研究人员开发。该系统旨在解决现有基准测试系统在并行数据流分析方面的不足,支持异构硬件环境,并能够集成机器学习模型以优化SPS工作负载。PDSP-Bench能够创建和管理大规模的流数据集,用于训练和评估针对流查询执行的机器学习模型,支持合成和真实世界的工作负载,以及用户定义的并行查询计划。
提供机构:
德国达姆施塔特工业大学, 德国伊尔梅瑙工业大学, 德国达姆施塔特DFKI
创建时间:
2025-04-15
搜集汇总
数据集介绍
main_image_url
构建方式
PDSP-Bench数据集通过集成真实应用和合成查询构建,采用并行查询结构(PQP)和异构硬件资源,支持机器学习模型的训练与评估。其构建过程包括数据流生成、查询计划枚举以及资源管理,通过CloudLab等测试平台实现分布式环境的模拟。
特点
PDSP-Bench数据集专注于并行和分布式流处理,具备异构硬件支持、多样化查询结构和实时数据流处理能力。其独特之处在于能够生成大规模流式数据,并集成机器学习模型进行性能预测和优化。数据集覆盖多种真实应用场景和合成查询,为流处理系统的全面评估提供了丰富资源。
使用方法
PDSP-Bench数据集的使用方法包括通过Web用户界面配置查询计划和硬件资源,执行并行查询并收集性能指标。用户可以选择现有应用或创建新的查询结构,并通过自动化管理器进行工作负载生成和结果可视化。此外,数据集支持机器学习模型的训练和评估,用户可以通过ML管理器比较不同模型的性能。
背景与挑战
背景概述
PDSP-Bench是由德国达姆施塔特工业大学、伊尔梅瑙工业大学及DFKI达姆施塔特分所的研究团队于2024年推出的并行分布式流处理基准测试系统。该系统旨在解决现代流处理系统(SPS)在异构分布式环境中性能评估的空白,特别关注算子并行度和资源利用效率的核心研究问题。作为TPCTC 2024会议收录的成果,PDSP-Bench通过集成机器学习模型和真实场景工作负载,为Apache Flink等流处理系统提供了包含14类真实应用和9类合成查询的基准测试套件,填补了传统基准测试仅支持同构环境顺序数据流的局限性。
当前挑战
PDSP-Bench面临三重挑战:1) 表达能力局限:现有基准如StreamBench缺乏对窗口函数等关键并行算子的支持,难以评估复杂数据流图;2) 异构硬件适配:真实场景如Netflix需在50+异构集群部署,而DSPBench等系统仅支持同构硬件测试;3) 机器学习集成:传统基准缺乏对学习型SPS组件的评估框架,无法公平比较不同成本模型的训练效率。构建过程中需攻克并行度枚举策略优化、异构资源动态映射以及流式工作负载特征提取等技术难点,以支持400万事件/秒的高吞吐测试场景。
常用场景
经典使用场景
在分布式流处理系统的性能评估领域,PDSP-Bench通过构建并行查询结构(PQP)和异构硬件环境,为Apache Flink等流处理系统提供了标准化的基准测试框架。该系统支持从简单线性查询到复杂多路连接操作的全方位测试,同时整合机器学习模型进行工作负载预测,典型应用包括实时广告分析、智能电网监测等数据密集型场景。其模块化设计允许用户自定义查询参数、并行度策略及硬件配置,为研究并行流处理的非线性性能特征提供了实验基础。
实际应用
在实际工业场景中,PDSP-Bench已成功应用于Netflix等企业的超大规模流处理系统优化。其生成的4百万事件/秒的高吞吐测试数据,可模拟社交媒体实时分析、物联网传感器网络等真实业务场景。系统支持的Click-Through Rate计算、交通流量预测等14种预设应用,直接对应数字广告、智慧城市等领域的核心需求。通过规则化并行度枚举策略,企业能快速识别最优资源配置方案,在50+异构集群的复杂环境中实现资源利用率提升30%以上。
衍生相关工作
该数据集催生了流处理优化领域的多项标志性研究:基于其基准数据训练的ZeroTune模型(Agnihotri等,2024)实现了零样本并行度调优;CoStream框架(Heinrich等,2024)利用PDSP-Bench的异构环境测试数据开发了边缘-云协同部署算法。在基准测试方法论层面,其创新设计启发TPC组织启动流处理专项基准TPCx-SP的制定,同时为MLPerf等AI基准扩展实时数据处理评估维度提供了范式参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作