HPCTransCompile

Name: HPCTransCompile
Creator: 同济大学, 中国; 上海人工智能实验室, 中国; 清华大学, 中国
Published: 2025-06-12 14:48:33
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://anonymous.4open.science/r/HPCTransCompile-4DC5

下载链接

链接失效反馈

官方服务：

资源简介：

HPCTransCompile是一个由人工智能编译器生成的数据集，旨在支持高性能CUDA代码的转译和学习语言模型（LLM）的初步探索。该数据集利用了人工智能编译器和自动优化技术，生成高性能CUDA和相应平台代码对。数据集的构建过程包括操作符选择、计算图构建、无用依赖移除、图标签和数据集生成。HPCTransCompile旨在解决高性能CUDA代码转译的挑战，并评估LLMs在CUDA转译任务上的性能。

HPCTransCompile is a dataset generated by AI compilers, aimed at supporting the transpilation of high-performance CUDA code and preliminary explorations of large language models (LLMs). This dataset utilizes AI compilers and automated optimization techniques to generate pairs of high-performance CUDA code and corresponding platform-specific code. The dataset construction process includes operator selection, computational graph construction, redundant dependency removal, graph labeling, and dataset generation. HPCTransCompile aims to address the challenges of high-performance CUDA code transpilation and evaluate the performance of LLMs on CUDA transpilation tasks.

提供机构：

同济大学, 中国; 上海人工智能实验室, 中国; 清华大学, 中国

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

HPCTransCompile数据集通过AI编译器和自动优化技术构建，结合TVM（Tensor Virtual Machine）框架自动生成高性能CUDA代码及其对应平台代码对。该框架采用基于图的数据增强方法，确保生成代码的多样性和代表性，同时通过修改TVM框架消除特定依赖，生成干净的平台无关代码。数据集生成过程中，TVM自动搜索最优调度配置，并记录硬件信息作为任务标注，最终形成20k个CUDA-CPU代码对的高质量数据集。

特点

HPCTransCompile数据集的核心特点在于其专注于高性能CUDA代码的跨平台转换，覆盖多种计算模式（如Elementwise、Reduction等）和复杂计算图。数据集通过TVM自动优化技术确保生成代码的性能竞争力，并引入硬件感知的优化策略标注，为模型提供明确的优化路径。此外，数据集包含独立于软件架构的基准测试HPCTransEval，涵盖100个原始算子、100个融合计算图和10个深度学习模型模块，为评估大语言模型在代码转换任务中的性能提供了标准化工具。

使用方法

该数据集主要用于微调大语言模型（LLM）以提升其CUDA代码转换能力。研究人员可通过加载数据集中的代码对，结合硬件信息和优化标注，训练模型生成高性能的目标平台代码。评估阶段使用HPCTransEval基准测试，通过编译通过率、执行通过率和加速比三项指标量化模型性能。具体流程包括：加载TVM生成的宿主和设备模块元数据，将目标代码编译为设备模块，并通过LLVM ORC JIT执行验证功能正确性。数据集还可用于探索不同算子类型（如逻辑密集型或计算密集型）的优化潜力差异。

背景与挑战

背景概述

HPCTransCompile数据集由同济大学与上海人工智能实验室于2025年联合发布，旨在解决高性能计算领域CUDA代码向多平台移植的核心难题。随着深度学习模型参数规模呈指数级增长，NVIDIA GPU及其CUDA生态虽占据主导地位，但不同硬件架构间的编程范式差异导致代码迁移存在显著性能瓶颈。该数据集创新性地融合AI编译器技术与图增强方法，自动生成20,000组CUDA-CPU高性能代码对，并配套开发HPCTransEval评估基准，为LLM在并行计算领域的代码转换研究提供了首个标准化测试平台。其突破性工作被收录于ACM顶级会议，推动了异构计算兼容性研究从手工调优向自动化方向的范式转变。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需克服CUDA的SPMD模型与CPU的fork-join模型间的语义鸿沟，解决内存层次结构差异导致的访存效率下降问题，例如GPU共享内存模式在CPU上的低效模拟；在构建过程中，TVM生成的代码存在框架依赖性强（如TVM特定API调用）、计算图多样性不足等局限，研究团队通过改进TVM编译流程实现依赖解耦，并设计基于进化算法的图构造策略提升算子组合复杂度。此外，如何保持转换后代码的数学等价性验证，以及平衡LLM提示工程中的硬件特性描述与代码简洁性，均为构建过程中的关键挑战。

常用场景

经典使用场景

HPCTransCompile数据集在并行计算领域具有广泛的应用，特别是在高性能计算（HPC）和深度学习领域。该数据集主要用于训练和评估大型语言模型（LLMs）在CUDA到其他平台（如CPU）的代码转译任务中的表现。通过自动生成的CUDA与对应平台的高性能代码对，研究人员可以深入探索LLMs在代码转译任务中的潜力，尤其是在处理复杂的并行编程范式转换时。

解决学术问题

HPCTransCompile数据集解决了高性能计算中CUDA代码转译到其他平台的学术难题。传统方法依赖于语言扩展或特定领域语言（DSLs），但这些方法在通用性和工作量覆盖上存在局限。该数据集通过AI编译器和自动优化技术生成高质量代码对，填补了高质量训练数据的空白，为LLMs在代码转译任务中的性能提升提供了关键支持。

衍生相关工作

HPCTransCompile数据集衍生了一系列经典工作，尤其是在LLMs和代码转译领域。例如，基于该数据集的HPCTransEval基准测试为评估LLMs在CUDA转译任务中的表现提供了标准化工具。此外，该数据集还启发了多项研究，探索如何利用自动生成的代码对优化LLMs的微调过程，进一步提升其在复杂代码转译任务中的准确性和效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集