CodeTransOcean

Name: CodeTransOcean
Creator: 加州大学圣巴巴拉分校
Published: 2023-10-25 09:40:49
License: 暂无描述

arXiv2023-10-25 更新2024-06-21 收录

下载链接：

https://github.com/WeixiangYAN/CodeTransOcean

下载链接

链接失效反馈

官方服务：

资源简介：

CodeTransOcean是一个大规模的多语言代码翻译基准数据集，由加州大学圣巴巴拉分校等机构的研究人员构建。该数据集包含三个多语言数据集（MultilingualTrans, NicheTrans, LLMTrans）和一个跨框架数据集（DLTrans），总计270,507个样本，涵盖45种编程语言和4种深度学习框架。数据集旨在推动代码翻译研究，满足真实世界应用的多样化需求，特别是在多语言和跨框架代码翻译方面。CodeTransOcean不仅支持多种编程语言之间的翻译，还包括评估大型语言模型执行翻译代码能力的LLMTrans数据集，以及用于跨不同深度学习框架代码翻译的DLTrans数据集。

CodeTransOcean is a large-scale multilingual code translation benchmark dataset developed by researchers from institutions including the University of California, Santa Barbara. The dataset comprises three multilingual datasets (MultilingualTrans, NicheTrans, LLMTrans) and one cross-framework dataset (DLTrans), with a total of 270,507 samples spanning 45 programming languages and 4 deep learning frameworks. Its purpose is to promote code translation research and cater to the diverse demands of real-world applications, especially in the domains of multilingual and cross-framework code translation. CodeTransOcean not only enables translation between various programming languages, but also features the LLMTrans dataset for evaluating the code translation capabilities of large language models (LLMs), as well as the DLTrans dataset for cross-framework code translation across different deep learning frameworks.

提供机构：

加州大学圣巴巴拉分校

创建时间：

2023-10-08

搜集汇总

数据集介绍

构建方式

在代码翻译领域，现有数据集普遍局限于少数流行编程语言对，难以满足现实应用中多语言转换与框架迁移的复杂需求。CodeTransOcean的构建基于对Rosetta Code等开源编程平台的系统采集，通过精心筛选与去重处理，形成了涵盖45种编程语言和4种深度学习框架的大规模平行语料库。其构建过程注重程序级样本的完整性与可执行性，确保了数据在语法与功能层面的一致性，同时通过人工验证与自动化流程相结合的质量控制机制，显著提升了数据的可靠性与实用性。

特点

CodeTransOcean的突出特点在于其前所未有的语言覆盖广度与任务多样性。该基准不仅包含支持八种流行编程语言互译的MultilingualTrans数据集，还创新性地构建了NicheTrans数据集，专门用于处理37种小众编程语言与流行语言之间的翻译任务。此外，针对深度学习实践中的框架壁垒问题，其DLTrans数据集首次实现了PyTorch、TensorFlow等主流框架间的代码迁移。特别设计的LLMTrans数据集则配备了自动化执行管道，为评估大语言模型的代码翻译可执行性提供了标准化测试环境。

使用方法

研究者可利用CodeTransOcean开展多语言代码翻译模型的训练与评估，其结构化数据集支持从单语对到多语对的多种建模策略比较。对于深度学习框架迁移任务，DLTrans数据集提供了从粗粒度程序到细粒度函数的不同抽象层级样本。评估方面，除传统匹配指标外，该基准引入了基于执行的Debugging Success Rate@K指标，通过自动化管道可量化评估翻译代码的功能正确性。同时，其附带的工具链支持对大语言模型进行零样本、少样本及思维链等多种提示策略的系统性测试。

背景与挑战

背景概述

在软件工程领域，随着技术生态的快速演进，遗留系统现代化与多语言代码库的集成维护已成为核心挑战。CodeTransOcean数据集于2023年由加州大学圣塔芭芭拉分校、香港大学、伊利诺伊大学厄巴纳-香槟分校及阿里巴巴集团的研究团队联合构建，旨在突破现有代码翻译数据集的局限。该数据集聚焦于编程语言间的自动转换问题，通过整合45种编程语言与4种深度学习框架的并行代码，构建了迄今规模最大、覆盖最广的多语言代码翻译基准。其创新性地引入小众语言翻译、跨框架代码迁移等现实场景，为神经机器翻译模型在代码领域的应用提供了关键数据支撑，显著推动了软件维护自动化与跨平台兼容性研究的发展。

当前挑战

CodeTransOcean面临的挑战主要体现在领域问题与构建过程两个维度。在领域问题层面，代码翻译需解决编程语言间语法结构差异、语义等价性保持、运行时行为一致性等核心难题，尤其在小众语言与深度学习框架转换中，缺乏标准化映射规则导致模型泛化能力不足。构建过程中，研究者需从异构数据源采集高质量并行代码，处理不同编程语言的编译依赖与环境配置问题，并确保数据分布的平衡性。此外，针对程序级翻译任务设计可执行性评估指标（如DSR@K）时，需克服自动化测试框架的通用性限制与安全风险控制等工程挑战，这些因素共同构成了该数据集在理论与应用层面的复合型难题。

常用场景

经典使用场景

在软件工程与程序语言迁移的研究领域，CodeTransOcean数据集为多语言代码翻译任务提供了前所未有的基准平台。其经典使用场景集中于评估和训练神经网络模型，以实现不同编程语言间源代码的自动转换。该数据集通过涵盖从流行语言到小众语言的广泛配对，支持研究者探索跨语言语义保持与功能等价的复杂问题，尤其在现代化遗留系统和提升代码库可维护性方面展现出重要价值。

衍生相关工作

基于CodeTransOcean的丰富语料，学术界衍生出多项前沿研究工作。研究者利用其多语言特性探索了面向代码翻译的跨语言预训练范式，开发出支持大规模语言对的统一翻译模型。该数据集亦催生了针对大语言模型的代码翻译系统性评估框架，包括自动化调试管道与执行预测方法。后续研究进一步扩展了其在代码语义保持、程序合成优化及低资源语言增强等方向的应用深度。

数据集最近研究