LOOPerSet

Name: LOOPerSet
Creator: 纽约大学阿布扎比分校
Published: 2025-10-11 21:27:02
License: 暂无描述

arXiv2025-10-11 更新2025-10-15 收录

下载链接：

https://huggingface.co/LOuPerSet

下载链接

链接失效反馈

官方服务：

资源简介：

LOOPerSet是一个大规模的公共数据集，旨在支持数据驱动代码优化的研究和开发。该数据集包含超过2800万个有标签的数据点，这些数据点来自大约22万个独特的、合成的多面体程序。每个数据点将程序和特定的优化序列映射到物理硬件上测量的真实性能提升。该数据集的核心是一个程序集合，每个数据点将程序和特定的优化序列映射到物理硬件上测量的真实性能提升。该数据集的核心是一个程序集合，每个数据点将程序和特定的优化序列映射到物理硬件上测量的真实性能提升。该数据集的设计旨在为编译器社区提供一个多功能工具，其最直接的应用是作为训练和评估机器学习模型的大规模基准。研究人员还可以直接分析数据以发现新的数据驱动编译器启发式算法。最后，它为解决硬件可移植性问题提供了基础，使模型能够在很大程度上减少数据收集的情况下预先训练，并为新的架构进行微调。

LOOPerSet is a large-scale public dataset designed to support research and development in data-driven code optimization. It contains over 28 million labeled data points sourced from approximately 220,000 unique synthetic polyhedral programs. Each data point maps a program and a specific optimization sequence to the real performance gains measured on physical hardware. At the core of this dataset lies a program collection, with every data point establishing the correspondence between a program, a targeted optimization sequence, and the actual measured performance gains on physical hardware. This dataset is crafted to serve as a versatile tool for the compiler community. Its most immediate application is as a large-scale benchmark for training and evaluating machine learning models. Researchers can also directly analyze the dataset to uncover new data-driven compiler heuristics. Finally, it provides a foundation for addressing hardware portability issues, allowing models to be pre-trained with substantially reduced data collection efforts and fine-tuned for novel architectures.

提供机构：

纽约大学阿布扎比分校

创建时间：

2025-10-11

搜集汇总

数据集介绍

构建方式

在面向多面体编译优化的研究领域，数据稀缺长期制约着机器学习方法的有效应用。LOOPerSet通过系统化的数据生成流程构建而成，首先生成约22万个结构多样的合成多面体程序，采用递归式循环结构生成与随机计算放置策略，并引入内存访问模式多样性及算术表达式复杂度控制；随后基于LOOPer自动调度器的相关性引导搜索机制，对合法变换序列进行定向采样；最终通过Tiramisu编译器框架在英特尔至强处理器上执行数万CPU小时的实测，获得涵盖融合、倾斜、分块等变换的2800万条性能标签数据。

特点

该数据集的核心价值体现在其规模性与结构多样性的深度融合。2800万数据点覆盖从简单循环嵌套到非矩形迭代域等复杂结构，其中14%程序包含非规则迭代域，为模型训练提供关键样本。性能标签呈现典型长尾分布，加速比范围跨越0.0004倍至1230倍，既包含中性变换案例，也囊括显著优化与性能劣化的极端情形。通过标准化树编辑距离量化分析证实，其程序结构空间显著超越传统PolyBench测试集，特征空间投影显示合成程序形成连续密集的分布云。

使用方法

研究者可通过Hugging Face平台获取JSON Lines格式的完整数据集或预划分的千万级子集。每个数据单元包含程序结构标注、初始执行时间及变换序列详单，支持直接解析进行模型训练。典型应用场景包括：基于程序依赖图构建图神经网络成本模型，利用长序列变换数据训练时序预测架构，或通过迁移学习实现跨硬件适配。配套提供的特征化代码可辅助复现LOOPer模型的输入构建流程，其CC-BY 4.0许可协议确保学术与商业使用的合规性。

背景与挑战

背景概述

多面体编译模型作为高性能计算领域的关键技术框架，为科学计算程序提供了系统的循环变换理论支撑。2025年纽约大学阿布扎比分院研究团队发布的LOOPerSet数据集，通过合成生成的22万个多面体程序与2800万组性能标签，构建了当前规模最大的数据驱动编译优化基准。该数据集通过Tiramisu编译器框架在英特尔至强处理器实测性能，为机器学习模型理解程序变换与硬件性能的复杂映射关系提供了实证基础，显著降低了多面体编译研究的数据获取门槛。

当前挑战

多面体编译优化的核心挑战在于从指数级变换空间中筛选出能提升目标硬件性能的合法调度序列，传统基于启发式规则的方法难以捕捉变换间的非线性交互效应。LOOPerSet构建过程中面临双重挑战：在程序生成阶段需通过多级随机化与一致性验证机制平衡结构多样性与计算意义，避免产生无效程序；在变换采样阶段需采用相关性引导的束搜索策略，从数十亿潜在调度中筛选兼具合法性与优化潜力的序列，其数据生成过程消耗超过7万CPU小时的计算资源。

常用场景

经典使用场景

在数据驱动的多面体编译器优化领域，LOOPerSet数据集作为大规模基准测试资源，主要应用于训练和评估机器学习模型的性能预测能力。该数据集通过合成程序生成与语义保持变换序列的映射，为研究循环融合、倾斜、分块等经典多面体变换的自动化调度提供了标准化实验平台。其包含的2800万条标注数据点覆盖了从简单循环结构到复杂嵌套模式的广泛程序形态，使得模型能够在多样化场景中学习优化策略与性能之间的复杂非线性关系。

衍生相关工作

基于LOOPerSet衍生的LOOPer自动调度器开创了LSTM架构在多面体编译中的成功应用，后续研究进一步拓展至图神经网络与Transformer等新兴模型。该数据集催生的特征工程方法为程序表示学习提供了新范式，其结构化程序标注体系被广泛采纳为依赖图构建的标准参考。相关工作还发展了基于树编辑距离的程序相似性度量框架，为合成数据的质量评估建立了严谨的数学基础。

数据集最近研究