five

codefuse-ai/CodeFuseEval

收藏
Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codefuse-ai/CodeFuseEval
下载链接
链接失效反馈
官方服务:
资源简介:
# CodeFuseEval ## Dataset Description [CodeFuseEval](https://github.com/codefuse-ai/codefuse-evaluation) is a benchmark for evaluating the multilingual ability of code generative models. It consists of 820 high-quality human-crafted data samples (each with test cases) in Python, C++, Java, JavaScript, and Go, and can be used for various tasks, such as code generation and translation. ## Languages The dataset contains coding problems in 4 programming tasks: CodeCompletion, NL2Code, CodeTranslation and CodeDataScience. ## Dataset Structure To load the dataset you need to specify a subset name among the subdataset names ```['humaneval_python', 'humaneval_python_cn', 'humaneval_js', 'humaneval_java', 'humaneval_go', 'humaneval_rust', 'humaneval_cpp', 'mbpp', 'codeTrans_python_to_java', 'codeTrans_python_to_cpp', 'codeTrans_cpp_to_java', 'codeTrans_cpp_to_python', 'codeTrans_java_to_python', 'codeTrans_java_to_cpp', 'codeCompletion_matplotlib', 'codeCompletion_numpy', 'codeCompletion_pandas', 'codeCompletion_pytorch', 'codeCompletion_scipy', 'codeCompletion_sklearn', 'codeCompletion_tensorflow', 'codeInsertion_matplotlib', 'codeInsertion_numpy', 'codeInsertion_pandas', 'codeInsertion_pytorch', 'codeInsertion_scipy', 'codeInsertion_sklearn', 'codeInsertion_tensorflow']```. By default `humaneval_python` is loaded. ```python from datasets import load_dataset load_dataset("codefuse-ai/CodeFuseEval", "humaneval_python") ``` ## Data Fields Different subdataset has different fields. You can check the fields of each subdataset by calling `dataset["test"].features`. For example, for `humaneval_python`: * ``task_id``: indicates the target language and ID of the problem. Language is one of ["Python", "Java", "JavaScript", "CPP", "Go"]. * ``prompt``: the function declaration and docstring, used for code generation. * ``declaration``: only the function declaration, used for code translation. * ``canonical_solution``: human-crafted example solutions. * ``test``: hidden test samples, used for evaluation. * ``example_test``: public test samples (appeared in prompt), used for evaluation. ## Data Splits Each subset has one split: test. ## Citation Information Refer to https://github.com/codefuse-ai/codefuse-evaluation.

# CodeFuseEval ## 数据集简介 [CodeFuseEval](https://github.com/codefuse-ai/codefuse-evaluation) 是一款用于评估代码生成模型多语言能力的基准测试集。该数据集涵盖Python、C++、Java、JavaScript及Go五种编程语言的820条高质量人工撰写的数据样本(每条均附带测试用例),可适用于代码生成、代码翻译等多种任务场景。 ## 任务类型 该数据集涵盖4类编程任务下的编码问题:代码补全(CodeCompletion)、自然语言转代码(NL2Code)、代码翻译(CodeTranslation)以及代码数据科学(CodeDataScience)。 ## 数据集结构 加载该数据集时,需从以下子数据集名称中指定所需子集: ['humaneval_python', 'humaneval_python_cn', 'humaneval_js', 'humaneval_java', 'humaneval_go', 'humaneval_rust', 'humaneval_cpp', 'mbpp', 'codeTrans_python_to_java', 'codeTrans_python_to_cpp', 'codeTrans_cpp_to_java', 'codeTrans_cpp_to_python', 'codeTrans_java_to_python', 'codeTrans_java_to_cpp', 'codeCompletion_matplotlib', 'codeCompletion_numpy', 'codeCompletion_pandas', 'codeCompletion_pytorch', 'codeCompletion_scipy', 'codeCompletion_sklearn', 'codeCompletion_tensorflow', 'codeInsertion_matplotlib', 'codeInsertion_numpy', 'codeInsertion_pandas', 'codeInsertion_pytorch', 'codeInsertion_scipy', 'codeInsertion_sklearn', 'codeInsertion_tensorflow'] 默认加载的子集为`humaneval_python`。 python from datasets import load_dataset load_dataset("codefuse-ai/CodeFuseEval", "humaneval_python") ## 数据字段 不同子数据集的数据字段存在差异。你可通过调用`dataset["test"].features`查看各子集的字段详情。以`humaneval_python`子集为例: * ``task_id``:表示问题对应的目标编程语言与唯一标识,编程语言可选值为["Python", "Java", "JavaScript", "CPP", "Go"]。 * ``prompt``:函数声明与文档字符串,用于代码生成任务。 * ``declaration``:仅包含函数声明部分,用于代码翻译任务。 * ``canonical_solution``:人工撰写的标准示例解决方案。 * ``test``:用于模型评估的隐藏测试样本。 * ``example_test``:出现在提示词中的公开测试样本,可用于模型评估。 ## 数据划分 每个子集仅包含一个数据划分:test(测试集)。 ## 引用信息 引用详情请参考 https://github.com/codefuse-ai/codefuse-evaluation。
提供机构:
codefuse-ai
原始信息汇总

CodeFuseEval

数据集描述

CodeFuseEval 是一个用于评估代码生成模型多语言能力的基准测试集。它包含820个高质量的人工编写数据样本(每个样本包含测试用例),涵盖Python、C++、Java、JavaScript和Go语言,适用于代码生成和翻译等多种任务。

语言

数据集包含4种编程任务:代码补全(CodeCompletion)、自然语言到代码(NL2Code)、代码翻译(CodeTranslation)和代码数据科学(CodeDataScience)。

数据集结构

加载数据集时,需要指定子数据集名称,可选的子数据集名称包括: [humaneval_python, humaneval_python_cn, humaneval_js, humaneval_java, humaneval_go, humaneval_rust, humaneval_cpp, mbpp, codeTrans_python_to_java, codeTrans_python_to_cpp, codeTrans_cpp_to_java, codeTrans_cpp_to_python, codeTrans_java_to_python, codeTrans_java_to_cpp, codeCompletion_matplotlib, codeCompletion_numpy, codeCompletion_pandas, codeCompletion_pytorch, codeCompletion_scipy, codeCompletion_sklearn, codeCompletion_tensorflow, codeInsertion_matplotlib, codeInsertion_numpy, codeInsertion_pandas, codeInsertion_pytorch, codeInsertion_scipy, codeInsertion_sklearn, codeInsertion_tensorflow] 默认加载 humaneval_python

python from datasets import load_dataset load_dataset("codefuse-ai/CodeFuseEval", "humaneval_python")

数据字段

不同的子数据集具有不同的字段。可以通过调用 dataset["test"].features 查看每个子数据集的字段。例如,对于 humaneval_python

  • task_id:指示目标语言和问题ID,语言包括 ["Python", "Java", "JavaScript", "CPP", "Go"]。
  • prompt:函数声明和文档字符串,用于代码生成。
  • declaration:仅函数声明,用于代码翻译。
  • canonical_solution:人工编写的示例解决方案。
  • test:隐藏的测试样本,用于评估。
  • example_test:公开的测试样本(出现在提示中),用于评估。

数据分割

每个子数据集只有一个分割:test。

搜集汇总
数据集介绍
main_image_url
构建方式
CodeFuseEval数据集的构建,是通过精心挑选并设计编码问题,涵盖多种编程语言和任务类型,旨在评估代码生成模型的多语言能力。该数据集包含820个高质量的人工制作数据样本,每个样本都附带测试用例,覆盖Python、C++、Java、JavaScript和Go五种编程语言,适用于代码生成和翻译等任务。
特点
CodeFuseEval数据集的特点在于其多语言覆盖和多样化的任务类型。它不仅包含代码补全、自然语言到代码的转换、代码翻译等传统任务,还特别关注数据科学领域的代码生成问题。每个子数据集的结构设计合理,使得数据易于加载和使用,同时保持了测试用例的隐蔽性,确保了评估的公正性。
使用方法
使用CodeFuseEval数据集,用户需指定子数据集名称来加载数据。通过调用`load_dataset`函数,可以轻松获取所需的子数据集。每个子数据集都包含一个测试集,用户可以依据`task_id`、`prompt`、`declaration`、`canonical_solution`、`test`和`example_test`等字段,进行代码生成模型的训练和评估。
背景与挑战
背景概述
在编程语言处理领域,多语言代码生成模型的能力评估一直是研究的热点问题。CodeFuseEval数据集应运而生,由codefuse-ai团队于近年创建,旨在为评估代码生成模型的多语言能力提供基准。该数据集涵盖了Python、C++、Java、JavaScript和Go五种编程语言,共计820个高质量的人工制作数据样本,每个样本均包含测试用例。它不仅为代码生成和翻译等任务提供了丰富的资源,也为相关领域的研究人员提供了宝贵的实验材料。
当前挑战
CodeFuseEval数据集在构建过程中面临的挑战主要涉及两个方面:一是如何设计能够全面、准确地衡量多语言代码生成模型性能的任务和测试用例;二是如何确保数据样本的质量和多样性,以适应不同的评估需求。具体挑战包括:编程任务的多样性设计、多语言环境的构建与兼容性、测试用例的隐蔽性与有效性保证,以及数据集的标准化和可扩展性问题。这些挑战不仅关系到数据集的实用性,也是对研究者智慧和技术的考验。
常用场景
经典使用场景
在编程语言的研究与开发领域,CodeFuseEval数据集以其跨语言的代码生成与翻译评估能力,成为评价代码生成模型多语言性能的重要基准。该数据集包含多种编程语言的高质量人工样本,为研究人员提供了一个全面的测试平台,以便于进行代码生成、翻译等任务的效果验证。
实际应用
实际应用中,CodeFuseEval数据集的应用场景广泛,不仅可用于评估和改进编程辅助工具,还能辅助教育领域,为学生提供自动化的编程练习和反馈,提高编程教育的效率和质量。
衍生相关工作
基于CodeFuseEval数据集的研究成果,已经衍生出多项相关工作,包括但不限于改进代码生成算法、多语言代码翻译系统的开发以及编程学习辅助系统的构建,这些研究进一步扩展了该数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作