PYXIS

Name: PYXIS
Creator: 加利福尼亚大学洛杉矶分校
Published: 2022-02-22 09:35:34
License: 暂无描述

arXiv2022-02-22 更新2024-06-21 收录

下载链接：

https://github.com/linghaosong/Pyxis

下载链接

链接失效反馈

官方服务：

资源简介：

PYXIS是由加利福尼亚大学洛杉矶分校创建的一个开源性能数据集，专注于稀疏数据上的定制加速器。该数据集收集了加速器设计和实际执行性能统计，目前包含73.8千个实例。PYXIS使用来自SuiteSparse的2,637个稀疏矩阵，通过FPGA和GPU平台进行稀疏矩阵与密集矩阵的乘法运算，以收集性能数据。数据集的创建旨在解决稀疏应用加速器设计中缺乏性能分析模型的问题，适用于加速器、架构、性能和算法等多个研究领域。

PYXIS is an open-source performance dataset developed by the University of California, Los Angeles, focusing on custom accelerators for sparse data. This dataset collects accelerator design and actual execution performance statistics, and currently contains 73.8 thousand instances. PYXIS uses 2,637 sparse matrices from SuiteSparse, and conducts sparse-dense matrix multiplication on FPGA and GPU platforms to collect performance data. The dataset was created to address the lack of performance analysis models in the design of sparse application accelerators, and is applicable to multiple research fields including accelerators, computer architectures, performance evaluation, and algorithms.

提供机构：

加利福尼亚大学洛杉矶分校

创建时间：

2021-10-09

搜集汇总

数据集介绍

构建方式

在稀疏计算加速器研究领域，构建一个全面且可靠的性能数据集对于指导架构设计至关重要。PYXIS数据集通过整合真实硬件平台上的执行数据来构建其核心内容。研究团队选取了SuiteSparse矩阵集合中的2,637个稀疏矩阵作为输入数据，并采用稀疏矩阵-稠密矩阵乘法作为基准应用。通过在两种FPGA平台和两种GPU平台上运行这些计算任务，系统性地采集了延迟与吞吐量等关键性能指标。数据生成过程依赖于Sextans等支持灵活尺寸计算的先进加速器架构，利用高层次综合工具生成硬件实现，从而确保了数据样本的多样性与实际参考价值。

特点

PYXIS数据集的一个显著特点是其规模与多样性，目前包含超过7.38万个性能实例，覆盖了从10^1到10^11浮点运算的广阔问题规模范围。数据集不仅收录了基于FPGA的定制化加速器性能，还涵盖了GPU平台的执行结果，为跨架构比较提供了基础。性能指标分布广泛，吞吐量数据跨越多个数量级，能够清晰揭示不同硬件在处理稀疏工作负载时的行为差异。这种丰富的性能分布使得数据集能够支持从微观架构优化到系统级任务调度的多层次研究。

使用方法

该数据集为多个研究方向提供了实用的数据基础。在加速器设计领域，研究者可以利用其中的性能统计信息分析带宽利用率和处理单元效率，从而指导手动或自动的架构优化。对于性能预测研究，数据集中大量的加速器设计描述与对应性能结果，可作为训练机器学习模型的样本，用于开发快速准确的性能预测工具。在系统调度方面，用户可以根据任务的计算规模查询数据集中不同平台的性能表现，为异构计算环境中的任务卸载提供决策依据。此外，数据集中的性能标签也为大规模图结构数据的分类与回归研究提供了新的可能性。

背景与挑战

背景概述

随着摩尔定律增益的逐渐减弱，传统处理器在处理大数据应用时效率日益受限，特定领域加速器因其在架构、硬件组件乃至编译器与计算栈集成层面的定制化优势，成为提升系统性能与能效的关键途径。稀疏数据结构广泛存在于各类应用中，然而稀疏加速器的设计面临巨大挑战，因为现有架构或性能分析模型难以全面捕捉稀疏数据的复杂性。为此，加州大学洛杉矶分校的研究团队于2022年推出了PYXIS数据集，该数据集专注于收集稀疏加速器的设计及其真实执行性能统计，旨在为加速器、架构、性能及算法等领域的研究者提供宝贵的实证数据支持。

当前挑战

PYXIS数据集致力于解决稀疏加速器设计中的性能评估与优化问题，其核心挑战在于稀疏工作负载的异构性与不规则性，这使得传统分析模型无法准确预测加速器行为，必须依赖耗时且资源密集的真实执行来获取可靠反馈。在构建过程中，数据集面临多重挑战：首先，加速器实现流程极为繁琐，无论是专用集成电路的制造还是现场可编程门阵列的原型设计，均需数月或数天时间，严重限制了大规模性能数据的生成效率；其次，多数加速器仅支持固定规模应用，缺乏通用性，导致单一设计仅能产生有限性能实例，进一步增加了数据收集的复杂度与成本。

常用场景

经典使用场景

在稀疏计算加速器设计领域，PYXIS数据集为研究人员提供了宝贵的性能基准。该数据集通过收集稀疏矩阵密集矩阵乘法（SpMM）在多种硬件平台上的真实执行数据，包括延迟和吞吐量，构建了一个包含7.38万实例的丰富性能库。这些数据源自SuiteSparse中的2637个稀疏矩阵，并在FPGA和GPU平台上运行，为稀疏加速器的架构优化和性能评估提供了实证基础。

解决学术问题

PYXIS数据集主要解决了稀疏加速器设计中缺乏系统性能数据的问题。由于稀疏数据结构的复杂性，传统分析模型难以准确预测加速器性能，导致设计过程依赖耗时且昂贵的硬件原型。该数据集通过提供大规模真实执行统计，使研究人员能够绕过繁琐的原型阶段，直接基于数据驱动的方法进行设计空间探索和性能建模，从而加速稀疏专用加速器的研发进程。

衍生相关工作

基于PYXIS数据集，研究者们开展了多项经典工作，主要集中在自动加速器设计空间探索和性能预测模型上。例如，利用图神经网络（GNN）和自然语言处理（NLP）技术对加速器的高层次综合代码进行编码，从而构建AI驱动的性能预测框架。这些工作不仅推动了稀疏加速器设计的自动化，也为跨架构的性能比较和优化提供了新的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集