codefuse-ai/CodeFuseEval

Name: codefuse-ai/CodeFuseEval
Creator: codefuse-ai
Published: 2023-11-20 02:51:20
License: 暂无描述

Hugging Face2023-11-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/codefuse-ai/CodeFuseEval

下载链接

链接失效反馈

官方服务：

资源简介：

# CodeFuseEval ## Dataset Description [CodeFuseEval](https://github.com/codefuse-ai/codefuse-evaluation) is a benchmark for evaluating the multilingual ability of code generative models. It consists of 820 high-quality human-crafted data samples (each with test cases) in Python, C++, Java, JavaScript, and Go, and can be used for various tasks, such as code generation and translation. ## Languages The dataset contains coding problems in 4 programming tasks: CodeCompletion, NL2Code, CodeTranslation and CodeDataScience. ## Dataset Structure To load the dataset you need to specify a subset name among the subdataset names ```['humaneval_python', 'humaneval_python_cn', 'humaneval_js', 'humaneval_java', 'humaneval_go', 'humaneval_rust', 'humaneval_cpp', 'mbpp', 'codeTrans_python_to_java', 'codeTrans_python_to_cpp', 'codeTrans_cpp_to_java', 'codeTrans_cpp_to_python', 'codeTrans_java_to_python', 'codeTrans_java_to_cpp', 'codeCompletion_matplotlib', 'codeCompletion_numpy', 'codeCompletion_pandas', 'codeCompletion_pytorch', 'codeCompletion_scipy', 'codeCompletion_sklearn', 'codeCompletion_tensorflow', 'codeInsertion_matplotlib', 'codeInsertion_numpy', 'codeInsertion_pandas', 'codeInsertion_pytorch', 'codeInsertion_scipy', 'codeInsertion_sklearn', 'codeInsertion_tensorflow']```. By default `humaneval_python` is loaded. ```python from datasets import load_dataset load_dataset("codefuse-ai/CodeFuseEval", "humaneval_python") ``` ## Data Fields Different subdataset has different fields. You can check the fields of each subdataset by calling `dataset["test"].features`. For example, for `humaneval_python`: * ``task_id``: indicates the target language and ID of the problem. Language is one of ["Python", "Java", "JavaScript", "CPP", "Go"]. * ``prompt``: the function declaration and docstring, used for code generation. * ``declaration``: only the function declaration, used for code translation. * ``canonical_solution``: human-crafted example solutions. * ``test``: hidden test samples, used for evaluation. * ``example_test``: public test samples (appeared in prompt), used for evaluation. ## Data Splits Each subset has one split: test. ## Citation Information Refer to https://github.com/codefuse-ai/codefuse-evaluation.

# CodeFuseEval ## 数据集简介 [CodeFuseEval](https://github.com/codefuse-ai/codefuse-evaluation) 是一款用于评估代码生成模型多语言能力的基准测试集。该数据集涵盖Python、C++、Java、JavaScript及Go五种编程语言的820条高质量人工撰写的数据样本（每条均附带测试用例），可适用于代码生成、代码翻译等多种任务场景。 ## 任务类型该数据集涵盖4类编程任务下的编码问题：代码补全(CodeCompletion)、自然语言转代码(NL2Code)、代码翻译(CodeTranslation)以及代码数据科学(CodeDataScience)。 ## 数据集结构加载该数据集时，需从以下子数据集名称中指定所需子集： ['humaneval_python', 'humaneval_python_cn', 'humaneval_js', 'humaneval_java', 'humaneval_go', 'humaneval_rust', 'humaneval_cpp', 'mbpp', 'codeTrans_python_to_java', 'codeTrans_python_to_cpp', 'codeTrans_cpp_to_java', 'codeTrans_cpp_to_python', 'codeTrans_java_to_python', 'codeTrans_java_to_cpp', 'codeCompletion_matplotlib', 'codeCompletion_numpy', 'codeCompletion_pandas', 'codeCompletion_pytorch', 'codeCompletion_scipy', 'codeCompletion_sklearn', 'codeCompletion_tensorflow', 'codeInsertion_matplotlib', 'codeInsertion_numpy', 'codeInsertion_pandas', 'codeInsertion_pytorch', 'codeInsertion_scipy', 'codeInsertion_sklearn', 'codeInsertion_tensorflow'] 默认加载的子集为`humaneval_python`。 python from datasets import load_dataset load_dataset("codefuse-ai/CodeFuseEval", "humaneval_python") ## 数据字段不同子数据集的数据字段存在差异。你可通过调用`dataset["test"].features`查看各子集的字段详情。以`humaneval_python`子集为例： * ``task_id``：表示问题对应的目标编程语言与唯一标识，编程语言可选值为["Python", "Java", "JavaScript", "CPP", "Go"]。 * ``prompt``：函数声明与文档字符串，用于代码生成任务。 * ``declaration``：仅包含函数声明部分，用于代码翻译任务。 * ``canonical_solution``：人工撰写的标准示例解决方案。 * ``test``：用于模型评估的隐藏测试样本。 * ``example_test``：出现在提示词中的公开测试样本，可用于模型评估。 ## 数据划分每个子集仅包含一个数据划分：test（测试集）。 ## 引用信息引用详情请参考 https://github.com/codefuse-ai/codefuse-evaluation。

提供机构：

codefuse-ai

原始信息汇总

CodeFuseEval

数据集描述

CodeFuseEval 是一个用于评估代码生成模型多语言能力的基准测试集。它包含820个高质量的人工编写数据样本（每个样本包含测试用例），涵盖Python、C++、Java、JavaScript和Go语言，适用于代码生成和翻译等多种任务。

语言

数据集包含4种编程任务：代码补全（CodeCompletion）、自然语言到代码（NL2Code）、代码翻译（CodeTranslation）和代码数据科学（CodeDataScience）。

数据集结构

加载数据集时，需要指定子数据集名称，可选的子数据集名称包括： [humaneval_python, humaneval_python_cn, humaneval_js, humaneval_java, humaneval_go, humaneval_rust, humaneval_cpp, mbpp, codeTrans_python_to_java, codeTrans_python_to_cpp, codeTrans_cpp_to_java, codeTrans_cpp_to_python, codeTrans_java_to_python, codeTrans_java_to_cpp, codeCompletion_matplotlib, codeCompletion_numpy, codeCompletion_pandas, codeCompletion_pytorch, codeCompletion_scipy, codeCompletion_sklearn, codeCompletion_tensorflow, codeInsertion_matplotlib, codeInsertion_numpy, codeInsertion_pandas, codeInsertion_pytorch, codeInsertion_scipy, codeInsertion_sklearn, codeInsertion_tensorflow] 默认加载 humaneval_python。

python from datasets import load_dataset load_dataset("codefuse-ai/CodeFuseEval", "humaneval_python")

数据字段

不同的子数据集具有不同的字段。可以通过调用 dataset["test"].features 查看每个子数据集的字段。例如，对于 humaneval_python：

task_id：指示目标语言和问题ID，语言包括 ["Python", "Java", "JavaScript", "CPP", "Go"]。
prompt：函数声明和文档字符串，用于代码生成。
declaration：仅函数声明，用于代码翻译。
canonical_solution：人工编写的示例解决方案。
test：隐藏的测试样本，用于评估。
example_test：公开的测试样本（出现在提示中），用于评估。

数据分割

每个子数据集只有一个分割：test。

搜集汇总

数据集介绍

构建方式

CodeFuseEval数据集的构建，是通过精心挑选并设计编码问题，涵盖多种编程语言和任务类型，旨在评估代码生成模型的多语言能力。该数据集包含820个高质量的人工制作数据样本，每个样本都附带测试用例，覆盖Python、C++、Java、JavaScript和Go五种编程语言，适用于代码生成和翻译等任务。

特点

CodeFuseEval数据集的特点在于其多语言覆盖和多样化的任务类型。它不仅包含代码补全、自然语言到代码的转换、代码翻译等传统任务，还特别关注数据科学领域的代码生成问题。每个子数据集的结构设计合理，使得数据易于加载和使用，同时保持了测试用例的隐蔽性，确保了评估的公正性。

使用方法

使用CodeFuseEval数据集，用户需指定子数据集名称来加载数据。通过调用`load_dataset`函数，可以轻松获取所需的子数据集。每个子数据集都包含一个测试集，用户可以依据`task_id`、`prompt`、`declaration`、`canonical_solution`、`test`和`example_test`等字段，进行代码生成模型的训练和评估。

背景与挑战

背景概述

在编程语言处理领域，多语言代码生成模型的能力评估一直是研究的热点问题。CodeFuseEval数据集应运而生，由codefuse-ai团队于近年创建，旨在为评估代码生成模型的多语言能力提供基准。该数据集涵盖了Python、C++、Java、JavaScript和Go五种编程语言，共计820个高质量的人工制作数据样本，每个样本均包含测试用例。它不仅为代码生成和翻译等任务提供了丰富的资源，也为相关领域的研究人员提供了宝贵的实验材料。

当前挑战

CodeFuseEval数据集在构建过程中面临的挑战主要涉及两个方面：一是如何设计能够全面、准确地衡量多语言代码生成模型性能的任务和测试用例；二是如何确保数据样本的质量和多样性，以适应不同的评估需求。具体挑战包括：编程任务的多样性设计、多语言环境的构建与兼容性、测试用例的隐蔽性与有效性保证，以及数据集的标准化和可扩展性问题。这些挑战不仅关系到数据集的实用性，也是对研究者智慧和技术的考验。

常用场景

经典使用场景

在编程语言的研究与开发领域，CodeFuseEval数据集以其跨语言的代码生成与翻译评估能力，成为评价代码生成模型多语言性能的重要基准。该数据集包含多种编程语言的高质量人工样本，为研究人员提供了一个全面的测试平台，以便于进行代码生成、翻译等任务的效果验证。

实际应用

实际应用中，CodeFuseEval数据集的应用场景广泛，不仅可用于评估和改进编程辅助工具，还能辅助教育领域，为学生提供自动化的编程练习和反馈，提高编程教育的效率和质量。

衍生相关工作

基于CodeFuseEval数据集的研究成果，已经衍生出多项相关工作，包括但不限于改进代码生成算法、多语言代码翻译系统的开发以及编程学习辅助系统的构建，这些研究进一步扩展了该数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集