F2STRANS Benchmark

Name: F2STRANS Benchmark
Creator: 哈尔滨工业大学（深圳）, 华为翻译服务中心（北京）, 浙江大学（杭州）
Published: 2025-07-15 16:25:02
License: 暂无描述

arXiv2025-07-15 更新2025-08-15 收录

下载链接：

https://www.modelscope.cn/collections/F2STrans-42526ff95dd843

下载链接

链接失效反馈

官方服务：

资源简介：

F2STRANS数据集是一个全新的代码翻译基准，它包含了最新的源代码、广泛的测试用例和手动注释的真实翻译。数据集涵盖了五种编程语言：C、C++、Go、Java和Python，每个问题选择两个代码解决方案作为源代码，并经过了广泛的测试用例的验证，确保了数据集的全面性和实用性。该数据集旨在帮助研究人员评估代码翻译模型的功能准确性和样式一致性，为代码翻译领域的研究提供了宝贵的资源。

The F2STRANS dataset is a novel code translation benchmark that contains up-to-date source code, extensive test cases, and manually annotated ground-truth translations. The dataset covers five programming languages: C, C++, Go, Java, and Python. For each problem, two code solutions are selected as the source code, which have been validated by extensive test cases to ensure the comprehensiveness and practicality of the dataset. This dataset aims to assist researchers in evaluating the functional accuracy and style consistency of code translation models, providing a valuable resource for research in the field of code translation.

提供机构：

哈尔滨工业大学（深圳）, 华为翻译服务中心（北京）, 浙江大学（杭州）

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

F2STRANS Benchmark的构建采用了严谨的两阶段方法。在功能性学习阶段，研究团队从在线编程平台挖掘高质量的跨语言代码对，通过轻量级代码嵌入模型Jina进行初步检索，并引入LLM法官进行细粒度评分，最终通过差分测试确保代码对的输入输出行为完全一致。在风格学习阶段，利用Qwen32B生成多组风格感知的候选翻译，通过风格共识选择机制筛选最优正样本，同时基于CSSim指标构建负样本集，形成对比学习数据。

使用方法

使用该数据集时需遵循标准化流程：功能性评估阶段通过计算准确率（CA）指标验证翻译代码的输入输出一致性；风格评估阶段采用CSSim度量体系，从变量命名、API调用和代码结构三个维度计算编辑距离。研究建议采用混合训练策略（all2all），通过统一模型处理多语言互译任务以提升性能。对于模型调试，可利用数据集提供的正负样本对比，结合列表式损失函数进行风格优化。

背景与挑战

背景概述

F2STRANS Benchmark是由哈尔滨工业大学（深圳）、华为翻译服务中心和浙江大学的研究团队于2025年提出的代码翻译基准数据集。该数据集旨在解决大型语言模型（LLMs）在代码翻译任务中功能正确性和代码可读性不足的问题。数据集包含五种编程语言（C、C++、Go、Java和Python）的最新源代码、大量测试用例和人工标注的真实翻译，为代码翻译的功能和风格评估提供了全面支持。F2STRANS Benchmark的提出推动了代码翻译领域的研究，特别是在提升翻译质量和模型性能方面具有重要影响力。

当前挑战

F2STRANS Benchmark面临的挑战主要包括两个方面：1) 领域问题的挑战：代码翻译任务需要确保翻译后的代码不仅在功能上与源代码一致，还需保持代码风格（如变量命名、代码结构等）的可读性。现有基准如CodeNet在代码更新、测试用例覆盖和真实翻译标注方面存在不足，难以全面评估模型的翻译质量。2) 构建过程的挑战：数据集的构建需要从在线编程平台挖掘高质量的跨语言代码对，并通过差异测试确保功能一致性。此外，风格一致性的评估需要开发新的度量标准（如CSSim），并设计有效的风格学习机制来提升模型在风格保持方面的表现。

常用场景

经典使用场景

F2STRANS Benchmark数据集在代码翻译任务中具有广泛的应用场景。该数据集通过提供高质量的多语言代码对和丰富的测试用例，支持大型语言模型（LLMs）在功能性和风格一致性方面的优化。其经典使用场景包括跨语言代码迁移、软件维护和自动化代码生成。研究人员可以利用该数据集评估和提升LLMs在代码翻译中的正确性和可读性，从而推动代码翻译技术的发展。

解决学术问题

F2STRANS Benchmark数据集解决了代码翻译领域中的两个核心学术问题：功能正确性和风格一致性。传统方法在代码翻译中往往难以同时保证翻译后的代码在功能上与源代码一致，并且在风格上保持可读性。该数据集通过提供功能一致的高质量代码对和风格标注数据，使得研究人员能够训练和评估模型在这两个方面的表现。其意义在于为代码翻译研究提供了一个全面的评估基准，推动了该领域的标准化和进步。

实际应用

F2STRANS Benchmark数据集在实际应用中具有重要价值。软件开发团队可以利用该数据集训练和优化代码翻译模型，从而在跨平台应用迁移、多语言代码库维护等场景中提高效率。例如，企业可以将遗留代码从旧语言迁移到现代语言，同时保持代码的功能和风格一致性。此外，该数据集还可用于教育领域，帮助学生理解不同编程语言之间的差异和转换方法。

数据集最近研究