OpenMP-Fortran-CPPTranslation
收藏arXiv2023-09-19 更新2024-07-24 收录
下载链接:
https://github.com/bin123apple/OpenMP-Fortran-CPP-Translation
下载链接
链接失效反馈官方服务:
资源简介:
本研究介绍了一种新型数据集,用于训练机器学习模型翻译OpenMP Fortran和C++代码。数据集源自多种开源OpenMP基准,经过细致的代码相似性测试进行精炼。该数据集通过量化(CodeBLEU)和质化(人工评估)方法评估其有效性,显著提升了大型语言模型(LLMs)的翻译能力。数据集的应用领域主要集中在高性能计算代码翻译,旨在解决Fortran和C++之间翻译的效率问题。
This study introduces a novel dataset for training machine learning models to translate OpenMP Fortran and C++ code. The dataset is sourced from multiple open-source OpenMP benchmarks and refined via comprehensive code similarity testing. Its effectiveness was evaluated using both quantitative (CodeBLEU) and qualitative (human evaluation) metrics, significantly enhancing the translation capabilities of Large Language Models (LLMs). Primarily applied in high-performance computing (HPC) code translation, this dataset aims to address the efficiency issues in code translation between Fortran and C++.
提供机构:
康涅狄格大学计算机科学与工程系
创建时间:
2023-07-15
原始信息汇总
Fortran-CPP-HPC-code-translation-dataset
数据集概述
该数据集包含用于训练和测试的Fortran到C++的高性能计算(HPC)代码翻译数据,以及一个简单的测试脚本。
数据来源
数据收集自以下三个不同的源:
数据下载
数据集可从以下链接下载:
数据示例
数据集中包含一对Fortran和C++代码的示例。
未来计划
未来将添加更多数据对,并增加一个用于代码生成任务的“自然语言”列。
许可证
该数据集遵循Creative Commons Attribution 4.0 International License。



