five

PARATRANS

收藏
arXiv2025-09-16 更新2025-09-17 收录
下载链接:
https://github.com/Scientific-Computing-Lab/UniPar_AI
下载链接
链接失效反馈
官方服务:
资源简介:
PARATRANS数据集是一个为评估大型语言模型(LLMs)在并行编程语言之间进行代码翻译能力的基准数据集。该数据集包含序列到并行翻译和跨范例翻译,涵盖了序列代码、CUDA和OpenMP三种并行编程范式。数据集由898对训练样本和76对测试样本组成,每个样本都包含相同内核在不同并行编程语言中的实现,用于评估LLMs的编译率和验证率。PARATRANS数据集的创建过程包括源代码抓取、预处理、代码验证、Token计数剪枝和划分训练集和测试集等步骤。

The PARATRANS dataset is a benchmark dataset for evaluating the code translation capabilities of Large Language Models (LLMs) between parallel programming languages. This dataset covers sequence-to-parallel translation and cross-paradigm translation, including three parallel programming paradigms: sequential code, CUDA, and OpenMP. It consists of 898 training sample pairs and 76 test sample pairs, where each sample contains implementations of the same kernel across different parallel programming languages, and is used to evaluate the compilation rate and validation rate of LLMs. The creation process of the PARATRANS dataset includes steps such as source code crawling, preprocessing, code verification, Token counting and pruning, and training/test set partitioning.
提供机构:
Technion, Ben-Gurion University, IAEC, Argonne National Laboratory, Code Metal, Stanford University
创建时间:
2025-09-16
原始信息汇总

UniPar 数据集概述

数据集名称

UniPar - Unified LLM-Based Framework for Parallel Code Translation in HPC

核心功能

多智能体系统,用于在并行编程API之间进行代码翻译(例如CUDA到OpenMP),使用语言模型和错误纠正反馈循环。

系统组成

  • 评估LLaMA模型的流水线(或使用vllm运行的模型)
  • 使用API运行GPT模型的类似流水线
  • 初始模型运行后可运行的多智能体流水线
  • 比较编译率的脚本
  • 运行验证率的脚本

多智能体流水线组件

  1. QuestionerAgent:制定模型翻译请求,包括可选的少样本示例
  2. ModelAgent:与语言模型API接口,生成翻译并修复代码错误
  3. ExecutionAgent:测试翻译后的代码是否能正确编译,提供错误反馈

反馈循环流程

  1. QuestionerAgent将源代码发送给ModelAgent进行翻译
  2. ExecutionAgent尝试编译和运行翻译后的代码
  3. 如果编译失败,ExecutionAgent将错误发送给ModelAgent
  4. ModelAgent尝试根据错误修复代码
  5. 循环重复直到编译成功或达到最大迭代次数

数据集位置

HeCBench数据集位于多智能体流水线文件夹中

可用脚本

  • full_run.sh:基本推理Python脚本使用
  • full_evaluation_script.sh:运行所有必要脚本的完整评估脚本
  • full_run_topic.sh:使用特定主题配置执行翻译任务
  • full_run_with_agent.sh:执行初始推理并调用剩余流水线步骤

环境要求

需要安装env.yaml文件中列出的所有必需依赖项

故障排除

  • 内存问题:减少--max_tokens值,增加--num_workers,分批处理数据集
  • 编译失败:检查编译结果文件中的错误消息,调整--temperature参数,增加--max_iterations
  • 运行时错误:检查运行时错误消息,确保执行环境安装了必要的库,验证目标硬件支持目标API
搜集汇总
数据集介绍
main_image_url
构建方式
PARATRANS数据集的构建基于HECBENCH高性能计算基准测试套件,该套件涵盖密码学、机器学习和信号处理等多个计算领域。通过严格的筛选标准,仅保留包含OpenMP和CUDA实现的基准测试,并提取核心计算逻辑所在的单一源文件。预处理阶段移除了所有注释,并通过消除OpenMP编译指示生成串行版本内核。代码验证环节采用自动化流程确保样本的编译成功和输出一致性,最终通过令牌长度修剪策略标准化输入长度,形成包含对齐元组的数据集。
特点
PARATRANS数据集的核心特点在于其跨范式对齐结构,每个元组包含同一内核在串行、OpenMP和CUDA三种编程范式下的实现,支持双向翻译任务。数据集覆盖多种计算领域,且经过严格的编译和功能正确性验证,确保高质量样本。令牌长度限制在7500以内,平衡了模型上下文窗口的覆盖范围与计算效率。训练集与测试集按约9:1比例划分,为模型评估提供可靠基准。
使用方法
该数据集专为评估大语言模型在并行代码翻译任务中的性能而设计,支持零样本、少样本及监督微调等多种实验设置。研究人员可通过提取对齐元组构建特定方向的翻译任务(如串行到CUDA),并利用编译验证框架评估生成代码的语法正确性和功能一致性。数据集的标准化结构便于集成到多智能体管道中,结合编译器反馈进行迭代优化,为高性能计算领域的代码迁移研究提供全面基准。
背景与挑战
背景概述
高性能计算领域长期面临并行编程语言间代码移植的挑战,PARATRANS数据集由Technion、本古里安大学及阿贡国家实验室等机构的研究团队于2025年创建,旨在系统评估大语言模型在跨范式代码翻译中的能力。该数据集基于HECBENCH基准套件构建,涵盖串行代码、CUDA和OpenMP三种编程范式的对齐实现,为核心计算领域如气候建模和分子动力学提供了标准化评估基准,推动了异构并行编程的自动化研究进程。
当前挑战
该数据集需解决并行代码跨范式翻译中语义等价性保持与性能可移植性的双重挑战,具体包括异构硬件架构的语法差异、并行原语的功能映射以及内存模型的一致性验证。构建过程中面临基准代码的范式覆盖不均衡、长代码样本的令牌长度标准化,以及自动化验证中编译工具链兼容性等工程难题,需通过多轮编译反馈和输出验证机制确保数据质量。
常用场景
经典使用场景
在并行编程语言转换研究中,PARATRANS数据集被广泛用于评估大型语言模型在串行代码与CUDA/OpenMP间跨范式转换的能力。该数据集通过提供对齐的多语言内核实现,支持从基础零样本生成到复杂代理编译修复的全流程验证,成为衡量模型在语法正确性和功能一致性方面性能的标准基准。
实际应用
该数据集的实际价值体现在工业级代码迁移场景中,例如将遗留串行科学计算代码适配至GPU集群时,可利用PARATRANS训练的模型自动生成OpenMP或CUDA并行版本。在芯片厂商生态转换场景中,支持CUDA至HIP等跨厂商代码转换,显著降低硬件适配成本并提升异构计算资源的利用率。
衍生相关工作
基于PARATRANS的评估范式催生了多个重要研究方向:UniPar框架提出的多智能体编译修复架构被扩展至SYCL等新兴并行语言;其验证方法论启发了HPC-Coder等基准测试体系构建;数据集构建原则更被应用于MPI代码生成领域,形成MPI-RICAL等数据驱动并行化辅助工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作