five

compiler_hot_paths

收藏
Hugging Face2024-11-29 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/zhaojer/compiler_hot_paths
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从26个C程序生成的1561条编译路径,这些程序来自Polybench基准测试套件,使用Ball-Larus算法生成。每条路径由一系列LLVM IR指令组成,并附有三个相关值:执行次数(count)、源文件(source_file)和标签(label,表示路径是'冷'还是'热')。数据集被分为训练集(1190条路径,75%)、验证集(211条路径,15%)和测试集(160条路径,10%)。测试集包含来自4个程序的路径,这些程序在生成路径之前被随机选择为测试集,确保模型未见过这些程序。训练集和验证集包含剩余的22个程序,这些程序在生成路径后随机分割。

This dataset comprises 1,561 compilation paths generated from 26 C programs sourced from the Polybench benchmark suite, with all paths produced using the Ball-Larus algorithm. Each path consists of a sequence of LLVM IR instructions, paired with three associated metadata values: execution count (count), source file (source_file), and label (indicating whether the path is categorized as 'cold' or 'hot'). The dataset is split into three subsets: a training set (1,190 paths, 75%), a validation set (211 paths, 15%), and a test set (160 paths, 10%). The test set contains paths from 4 programs that were randomly designated for the test set prior to path generation, ensuring that the model has no prior exposure to these programs. The training and validation sets cover the remaining 22 programs, with their paths randomly partitioned between the two subsets after path generation.
创建时间:
2024-11-29
原始信息汇总

数据集概述

数据集描述

该数据集包含1561条编译路径,这些路径是从Polybench Benchmark Suite中的26个C程序生成的,使用Ball-Larus Algorithm算法。每条路径是一个LLVM IR指令序列,并附带以下三个值:

  1. count:整数,表示该路径在原始程序中执行的次数。
  2. source_file:字符串,表示该路径来自哪个程序。
  3. label:整数,值为0或1,分别表示该路径是“冷路径”或“热路径”。

注意:由于运行时遇到错误,排除了4个程序(deriche, cholesky, gramschmidt, correlation)。

数据集用途

该数据集用于训练/微调机器学习模型,以进行热路径预测:给定一条路径,预测它是“热路径”还是“冷路径”。路径被认为是“热路径”,如果它在程序中执行次数超过阈值n,其中n = 1,否则被认为是“冷路径”。

数据集结构

数据集分为训练集(1190条,75%)、验证集(211条,15%)和测试集(160条,10%)。测试集包含来自4个程序(在PolyBench中)的路径,即jacobi-2d, syr2k, durbin, 2mm。这4个程序在生成路径之前被随机选择为测试集,确保模型从未见过测试集的程序。训练集和验证集包含剩余的22个程序,这些程序在生成路径后随机分割(同时保持热路径与冷路径的比例),这意味着验证集和训练集中的某些路径可能来自同一个C程序,但由于路径本身是不同的,这可能不会成为问题。

数据集信息

特征

  • path:字符串
  • count:int64
  • source_file:字符串
  • label:int64

分割

  • train:3468576字节,1190条
  • validation:647074字节,211条
  • test:194998字节,160条

大小

  • 下载大小:798471字节
  • 数据集大小:4310648字节
搜集汇总
数据集介绍
main_image_url
构建方式
compiler_hot_paths数据集通过Ball-Larus算法从Polybench Benchmark Suite中的26个C程序生成1561条编译器路径构建而成。每条路径由一系列LLVM中间表示(IR)指令组成,并附带三个关键值:`count`表示路径在原始程序中的执行次数,`source_file`标识路径来源的程序,`label`则标记路径为“冷”或“热”。由于运行错误,`deriche`、`cholesky`、`gramschmidt`和`correlation`四个程序被排除在外。
特点
该数据集的特点在于其专注于编译器路径的热度预测,每条路径均标注了执行次数和热度标签。数据集分为训练集、验证集和测试集,分别包含1190、211和160条路径。测试集来自四个特定程序(`jacobi-2d`、`syr2k`、`durbin`、`2mm`),确保模型在训练过程中从未接触过这些程序。训练集和验证集则来自其余22个程序,且在拆分时保持了热路径与冷路径的比例,尽管部分路径可能来自同一程序,但由于路径本身的独特性,这不会对模型训练造成显著影响。
使用方法
compiler_hot_paths数据集主要用于训练和微调机器学习模型,以预测编译器路径的热度。给定一条路径,模型需判断其为“热”或“冷”,其中“热”路径定义为执行次数超过阈值*n*(此处*n=1*)的路径。数据集的结构设计确保了测试集的独立性,模型在训练过程中不会接触到测试集的程序,从而有效评估模型的泛化能力。
背景与挑战
背景概述
Compiler Hot Paths数据集由Polybench Benchmark Suite中的26个C程序生成,采用Ball-Larus算法提取LLVM中间表示(IR)指令序列。该数据集创建于近年,旨在通过机器学习模型预测编译器中的“热路径”与“冷路径”。热路径是指执行次数超过特定阈值的路径,而冷路径则相反。这一研究问题在编译器优化领域具有重要意义,能够帮助开发者识别程序中的高频执行路径,从而进行针对性的性能优化。数据集的核心贡献在于为编译器优化研究提供了标准化的实验数据,推动了相关领域的技术发展。
当前挑战
Compiler Hot Paths数据集在构建与应用过程中面临多重挑战。首先,数据生成过程中,部分程序(如`deriche`、`cholesky`等)因运行错误被排除,可能导致数据覆盖不全,影响模型的泛化能力。其次,热路径与冷路径的划分依赖于单一阈值(n=1),这种定义可能过于简单,无法充分反映实际程序执行中的复杂行为。此外,数据集的测试集仅包含4个程序,虽然保证了模型未见性,但样本量较小,可能限制模型性能的全面评估。最后,数据集的路径特征提取与标签生成依赖于特定算法,其通用性与可扩展性仍需进一步验证。
常用场景
经典使用场景
在编译器优化领域,`compiler_hot_paths`数据集被广泛用于训练和微调机器学习模型,以预测程序执行路径的热度。通过分析LLVM中间表示(IR)指令序列,模型能够识别出频繁执行的“热路径”和不常执行的“冷路径”,从而为编译器优化提供关键信息。
衍生相关工作
基于`compiler_hot_paths`数据集,研究者们开发了多种机器学习模型和算法,用于路径预测和编译器优化。例如,一些工作利用该数据集训练深度神经网络,以自动识别热路径;另一些研究则结合传统编译器优化技术,提出了混合优化策略,进一步提升了编译器的性能。
数据集最近研究
最新研究方向
在编译器优化领域,`compiler_hot_paths`数据集为研究热点路径预测提供了重要支持。该数据集基于Polybench Benchmark Suite中的C程序生成,利用Ball-Larus算法提取LLVM中间表示(IR)路径,并标注了路径的执行频率和来源文件。近年来,随着机器学习技术在编译器优化中的广泛应用,该数据集被用于训练和微调模型,以预测路径的“热”或“冷”属性。这一研究方向不仅有助于提升编译器的性能优化能力,还为自动化的代码分析和优化提供了新的思路。特别是在大规模代码库中,准确识别高频执行路径能够显著减少编译时间和资源消耗,具有重要的实际应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作