CRUXEVAL-X

Name: CRUXEVAL-X
Creator: 中国信息处理实验室，软件研究所，中国科学院，北京，中国
Published: 2024-08-23 19:43:00
License: 暂无描述

arXiv2024-08-23 更新2024-08-27 收录

下载链接：

https://cruxevalx.github.io/leaderboard.html

下载链接

链接失效反馈

官方服务：

资源简介：

CRUXEVAL-X是由中国信息处理实验室和软件研究所联合创建的多语言代码推理基准，涵盖19种流行编程语言，包括C++、Rust、Java等。该数据集包含至少600个函数，总计12,660个主题和19,000个测试案例，用于输入/输出推理。数据集的创建过程采用全自动化方式，通过规则映射和迭代生成-修复方法确保代码翻译的准确性。CRUXEVAL-X主要用于评估大型语言模型在多语言环境下的代码推理能力，旨在解决现有基准中编程语言和任务偏见的问题。

CRUXEVAL-X is a multilingual code reasoning benchmark jointly developed by the China Information Processing Laboratory and the Institute of Software. It encompasses 19 prevalent programming languages, including C++, Rust, Java, and others. This dataset contains at least 600 functions, with a total of 12,660 topics and 19,000 test cases for input-output reasoning. The dataset was constructed via a fully automated workflow, using rule-based mapping and iterative generation-fix methodologies to ensure the accuracy of code translation. CRUXEVAL-X is primarily intended to evaluate the code reasoning capabilities of large language models (LLMs) in multilingual scenarios, aiming to mitigate programming language and task biases inherent in existing benchmarks.

提供机构：

中国信息处理实验室，软件研究所，中国科学院，北京，中国

创建时间：

2024-08-23

搜集汇总

数据集介绍

构建方式

CRUXEVAL-X数据集的构建过程采用了全自动化的测试引导方式，通过迭代生成和修复代码来确保多语言代码推理的准确性。首先，通过映射变量类型注释来翻译函数签名，然后利用规则基础的方法将Python测试用例翻译成其他编程语言。最后，集成多个大型语言模型（LLMs）进行代码翻译，通过迭代生成和修复过程来提高翻译的准确性。

特点

CRUXEVAL-X数据集的特点在于其多语言性和内容一致性。该数据集包含了19种编程语言，每种语言至少有600个主题，总计19,000个测试用例。此外，数据集的构建过程采用了全自动化的方式，确保了高度的准确性和一致性，同时避免了数据污染问题。

使用方法

CRUXEVAL-X数据集主要用于评估大型语言模型在多语言代码推理、理解和执行方面的能力。用户可以通过提供的测试用例来验证模型在不同编程语言中的代码生成、输入推理和输出推理能力。数据集的评估结果可以通过Pass@1指标来衡量，该指标反映了模型在一次尝试中正确生成或推理代码的能力。

背景与挑战

背景概述

随着大型语言模型（LLMs）在代码生成、缺陷检测和程序修复等领域的卓越表现，评估这些模型在多语言代码推理能力上的表现变得尤为重要。现有的代码基准测试如HumanEval主要集中在Python语言上，忽略了其他编程语言如Java和C/C++的评估。此外，大多数基准测试侧重于代码生成能力，而对代码推理能力的评估不足。为了填补这一空白，CRUXEVAL-X数据集应运而生，它包含了19种编程语言，每种语言至少有600个题目，总计19,000个测试用例。该数据集由中国科学院软件研究所、中国科学院大学和香港科技大学的研究人员共同创建，旨在通过自动化和测试引导的方式，评估LLMs在多语言代码推理中的表现。

当前挑战

构建CRUXEVAL-X数据集面临多重挑战。首先，多语言代码基准的构建成本高且劳动密集，现有的代码竞赛网站如LeetCode存在数据污染问题。其次，自动翻译在处理复杂代码结构时表现不佳，即使是最好的LLM也只能达到64%的成功翻译率。此外，不同编程语言之间的类型系统和语法差异增加了翻译的难度。CRUXEVAL-X通过制定语言对之间的转换规则和采用迭代生成与修复的方法，成功克服了这些挑战，但其仍需面对语言多样性和模型泛化能力的持续评估与优化。

常用场景

经典使用场景

CRUXEVAL-X数据集的经典使用场景在于评估大型语言模型（LLMs）在多语言代码推理、理解和执行方面的能力。该数据集包含了19种编程语言，每种语言至少有600个题目，总计19,000个测试用例。通过这些测试用例，研究者可以系统地评估LLMs在不同编程语言中的代码生成、输入输出推理等核心编程能力。

衍生相关工作

CRUXEVAL-X数据集的提出催生了一系列相关研究工作，特别是在多语言代码生成和推理领域。例如，研究者们基于该数据集开发了新的模型和算法，以提高LLMs在多语言环境下的表现。此外，该数据集还促进了跨语言代码翻译和迁移规则的研究，推动了编程语言之间语法和语义转换技术的进步。

数据集最近研究