EffiReasonTrans-Data

Name: EffiReasonTrans-Data
Creator: 中山大学和华为云计算技术有限公司
Published: 2025-10-22 01:55:39
License: 暂无描述

arXiv2025-10-22 更新2025-11-05 收录

下载链接：

https://github.com/DeepSoftwareAnalytics/EffiReasonTrans

下载链接

链接失效反馈

官方服务：

资源简介：

EffiReasonTrans-Data数据集由中山大学和华为云计算技术有限公司的研究人员创建，用于代码翻译任务。该数据集包含3032个训练样本，每个样本由源代码、推理步骤和目标代码组成，涵盖了Java到Python、C++到Java、Python到C++三种翻译场景。数据集在收集过程中进行了自动化语法验证和功能测试，以确保数据质量。EffiReasonTrans-Data数据集旨在通过增强推理能力，在保持翻译准确性的同时，降低代码翻译的推理延迟，从而优化代码翻译的准确性与效率之间的权衡。

The EffiReasonTrans-Data dataset was created by researchers from Sun Yat-sen University and Huawei Cloud Computing Technology Co., Ltd. for code translation tasks. This dataset contains 3,032 training samples, each consisting of source code, reasoning steps, and target code, covering three translation scenarios: Java to Python, C++ to Java, and Python to C++. Automated syntax validation and functional testing were conducted during the dataset collection process to ensure data quality. The EffiReasonTrans-Data dataset aims to optimize the trade-off between accuracy and efficiency in code translation by enhancing reasoning capabilities, reducing the reasoning latency of code translation while maintaining translation accuracy.

提供机构：

中山大学和华为云计算技术有限公司

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

在代码翻译研究领域，构建高质量数据集是提升模型性能的关键环节。EffiReasonTrans-Data通过采用先进的数据合成方法，首先从公开数据源中筛选出具备可靠测试用例的并行函数，确保源程序的语法正确性和功能完整性。随后，利用具备强大推理能力的大型语言模型DeepSeek-R1生成包含显式推理步骤和目标代码的三元组，每个样本均经过自动化语法验证和功能测试的严格过滤，最终形成包含3023个样本的多语言代码翻译语料库，覆盖Java、Python和C++之间的多种翻译场景。

特点

EffiReasonTrans-Data的显著特点在于其独特的推理增强结构，每个样本均由源代码、显式推理链和目标代码构成，有效捕捉了编程语言间的语义迁移逻辑。该数据集涵盖三种主流编程语言的六种翻译方向，样本平均令牌数达1268个，确保了数据的多样性和复杂性。通过自动化测试验证的功能等效性保障了翻译结果的可靠性，而推理步骤的引入为模型学习代码转换的内在逻辑提供了丰富监督信号，使其在保持高准确率的同时支持推理过程的优化。

使用方法

该数据集专为代码翻译模型的训练与评估设计，可支持监督微调和强化学习两阶段训练流程。在监督微调阶段，模型通过学习三元组中的推理步骤与目标代码映射关系，掌握代码转换的语义规律；在强化学习阶段，结合执行正确性和输出简洁性的双目标奖励策略，进一步优化翻译质量与推理效率。研究人员可直接将数据集输入到适配的模型架构中，通过标准训练流程实现代码翻译任务的性能提升，同时利用内置的测试用例进行自动化效果验证，确保模型在实际应用中的稳定表现。

背景与挑战

背景概述

EffiReasonTrans-Data由中山大学与华为云计算技术有限公司于2025年联合构建，聚焦于代码翻译任务中推理增强数据的系统性生成。该数据集通过调用高性能语言模型DeepSeek-R1生成包含源代码、中间推理过程与目标代码的三元组，并采用自动化语法验证与功能测试确保数据可靠性。其核心研究目标在于解决大语言模型在代码翻译中因引入链式推理而导致的推理延迟激增问题，为软件维护中的跨语言迁移任务提供了兼顾准确性与效率的基准支持。

当前挑战

在领域问题层面，EffiReasonTrans-Data致力于应对代码翻译任务中语义逻辑迁移与语法结构适配的双重挑战，尤其需要克服不同编程范式间的隐性差异。构建过程中面临三大挑战：其一，需通过多轮测试验证确保生成代码的功能等价性，避免因语言特性差异导致语义失真；其二，推理链的自动生成需平衡详细性与冗余度，防止无效信息干扰模型训练；其三，数据合成需覆盖Python、Java与C++间多种翻译方向，以应对现实开发中异构技术栈的迁移需求。

常用场景

经典使用场景

在软件工程领域，EffiReasonTrans-Data作为增强推理的代码翻译数据集，其经典应用场景聚焦于训练大语言模型进行跨编程语言的语义迁移。该数据集通过包含源代码、中间推理步骤和目标代码的三元组结构，使模型能够学习从语法转换到逻辑映射的完整翻译过程，特别适用于处理Python、Java和C++等主流语言间涉及复杂数据结构与算法模式的转换任务。

实际应用

在工业实践中，该数据集支撑的翻译模型可集成至持续集成流水线，助力遗留系统向现代技术栈迁移。例如将企业级C++业务逻辑转化为Python实现时，模型通过内部化推理过程实现毫秒级响应，同时确保转换后的代码通过单元测试验证。这种能力在云服务平台的多语言微服务架构中具有重要价值。

衍生相关工作

基于该数据集衍生的经典工作包括UniTrans框架的增强版本，其通过迭代修复机制进一步提升了翻译鲁棒性。同时启发了hmCodeTrans等交互式系统的改进，将强化学习策略与人类反馈相结合。在方法论层面，该数据集推动了对推理内部化技术的探索，为后续CoT压缩、潜在空间推理等高效范式提供了实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集