five

HPCTransCompile

收藏
arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://anonymous.4open.science/r/HPCTransCompile-4DC5
下载链接
链接失效反馈
官方服务:
资源简介:
HPCTransCompile是一个由人工智能编译器生成的数据集,旨在支持高性能CUDA代码的转译和学习语言模型(LLM)的初步探索。该数据集利用了人工智能编译器和自动优化技术,生成高性能CUDA和相应平台代码对。数据集的构建过程包括操作符选择、计算图构建、无用依赖移除、图标签和数据集生成。HPCTransCompile旨在解决高性能CUDA代码转译的挑战,并评估LLMs在CUDA转译任务上的性能。

HPCTransCompile is a dataset generated by AI compilers, aimed at supporting the transpilation of high-performance CUDA code and preliminary explorations of large language models (LLMs). This dataset utilizes AI compilers and automated optimization techniques to generate pairs of high-performance CUDA code and corresponding platform-specific code. The dataset construction process includes operator selection, computational graph construction, redundant dependency removal, graph labeling, and dataset generation. HPCTransCompile aims to address the challenges of high-performance CUDA code transpilation and evaluate the performance of LLMs on CUDA transpilation tasks.
提供机构:
同济大学, 中国; 上海人工智能实验室, 中国; 清华大学, 中国
创建时间:
2025-06-12
搜集汇总
数据集介绍
main_image_url
构建方式
HPCTransCompile数据集通过AI编译器和自动优化技术构建,结合TVM(Tensor Virtual Machine)框架自动生成高性能CUDA代码及其对应平台代码对。该框架采用基于图的数据增强方法,确保生成代码的多样性和代表性,同时通过修改TVM框架消除特定依赖,生成干净的平台无关代码。数据集生成过程中,TVM自动搜索最优调度配置,并记录硬件信息作为任务标注,最终形成20k个CUDA-CPU代码对的高质量数据集。
特点
HPCTransCompile数据集的核心特点在于其专注于高性能CUDA代码的跨平台转换,覆盖多种计算模式(如Elementwise、Reduction等)和复杂计算图。数据集通过TVM自动优化技术确保生成代码的性能竞争力,并引入硬件感知的优化策略标注,为模型提供明确的优化路径。此外,数据集包含独立于软件架构的基准测试HPCTransEval,涵盖100个原始算子、100个融合计算图和10个深度学习模型模块,为评估大语言模型在代码转换任务中的性能提供了标准化工具。
使用方法
该数据集主要用于微调大语言模型(LLM)以提升其CUDA代码转换能力。研究人员可通过加载数据集中的代码对,结合硬件信息和优化标注,训练模型生成高性能的目标平台代码。评估阶段使用HPCTransEval基准测试,通过编译通过率、执行通过率和加速比三项指标量化模型性能。具体流程包括:加载TVM生成的宿主和设备模块元数据,将目标代码编译为设备模块,并通过LLVM ORC JIT执行验证功能正确性。数据集还可用于探索不同算子类型(如逻辑密集型或计算密集型)的优化潜力差异。
背景与挑战
背景概述
HPCTransCompile数据集由同济大学与上海人工智能实验室于2025年联合发布,旨在解决高性能计算领域CUDA代码向多平台移植的核心难题。随着深度学习模型参数规模呈指数级增长,NVIDIA GPU及其CUDA生态虽占据主导地位,但不同硬件架构间的编程范式差异导致代码迁移存在显著性能瓶颈。该数据集创新性地融合AI编译器技术与图增强方法,自动生成20,000组CUDA-CPU高性能代码对,并配套开发HPCTransEval评估基准,为LLM在并行计算领域的代码转换研究提供了首个标准化测试平台。其突破性工作被收录于ACM顶级会议,推动了异构计算兼容性研究从手工调优向自动化方向的范式转变。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需克服CUDA的SPMD模型与CPU的fork-join模型间的语义鸿沟,解决内存层次结构差异导致的访存效率下降问题,例如GPU共享内存模式在CPU上的低效模拟;在构建过程中,TVM生成的代码存在框架依赖性强(如TVM特定API调用)、计算图多样性不足等局限,研究团队通过改进TVM编译流程实现依赖解耦,并设计基于进化算法的图构造策略提升算子组合复杂度。此外,如何保持转换后代码的数学等价性验证,以及平衡LLM提示工程中的硬件特性描述与代码简洁性,均为构建过程中的关键挑战。
常用场景
经典使用场景
HPCTransCompile数据集在并行计算领域具有广泛的应用,特别是在高性能计算(HPC)和深度学习领域。该数据集主要用于训练和评估大型语言模型(LLMs)在CUDA到其他平台(如CPU)的代码转译任务中的表现。通过自动生成的CUDA与对应平台的高性能代码对,研究人员可以深入探索LLMs在代码转译任务中的潜力,尤其是在处理复杂的并行编程范式转换时。
解决学术问题
HPCTransCompile数据集解决了高性能计算中CUDA代码转译到其他平台的学术难题。传统方法依赖于语言扩展或特定领域语言(DSLs),但这些方法在通用性和工作量覆盖上存在局限。该数据集通过AI编译器和自动优化技术生成高质量代码对,填补了高质量训练数据的空白,为LLMs在代码转译任务中的性能提升提供了关键支持。
衍生相关工作
HPCTransCompile数据集衍生了一系列经典工作,尤其是在LLMs和代码转译领域。例如,基于该数据集的HPCTransEval基准测试为评估LLMs在CUDA转译任务中的表现提供了标准化工具。此外,该数据集还启发了多项研究,探索如何利用自动生成的代码对优化LLMs的微调过程,进一步提升其在复杂代码转译任务中的准确性和效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作