mxeval/mbxp

Name: mxeval/mbxp
Creator: mxeval
Published: 2023-07-03 18:10:10
License: 暂无描述

Hugging Face2023-07-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mxeval/mbxp

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于执行基于多语言代码生成能力的评估，包含多语言基准MBXP、多语言MathQA和多语言HumanEval。数据集中的编程问题用多种编程语言编写，并在注释和文档字符串中包含英文自然文本。数据集的结构包括数据实例、数据字段和数据分割，支持多种编程语言如Python、Java、Javascript等。数据集的创建是为了评估代码生成模型，确保这些模型在未包含在GitHub转储中的数据集上也能正确执行。数据集由AWS AI Labs管理，使用时需注意沙盒执行环境。

This dataset is designed for evaluating multilingual code generation capabilities, and includes three multilingual benchmarks: MBXP, MathQA, and HumanEval. The programming problems in the dataset are written in multiple programming languages, with English natural language included in comments and docstrings. The dataset structure includes data instances, data fields and data splits, supporting a variety of programming languages such as Python, Java, JavaScript and others. This dataset was created to evaluate code generation models, ensuring that these models can perform correctly on datasets not included in GitHub dumps. This dataset is managed by AWS AI Labs, and users should note the sandbox execution environment requirements when utilizing it.

提供机构：

mxeval

原始信息汇总

MBXP数据集概述

数据集描述

数据集总结

MBXP数据集包含用于执行基于多语言代码生成能力评估的数据和代码，包括多语言基准MBXP、多语言MathQA和多语言HumanEval。相关结果和发现可在论文"Multi-lingual Evaluation of Code Generation Models"中找到。

语言

编程问题使用多种编程语言编写，并包含英语自然文本在注释和文档字符串中。

数据集结构

数据实例

一个数据实例包含以下字段：

task_id: 数据样本的标识符
prompt: 包含函数头和文档字符串的模型输入
canonical_solution: prompt问题的解决方案
description: 任务描述
test: 用于测试生成代码正确性的函数
entry_point: 测试的入口点
language: 编程语言标识符，用于调用适当的子进程调用以执行程序

数据字段

task_id: 数据样本的标识符
prompt: 包含函数头和文档字符串的模型输入
canonical_solution: prompt问题的解决方案
description: 任务描述
test: 用于测试生成代码正确性的函数
entry_point: 测试的入口点
language: 编程语言标识符，用于调用适当的子进程调用以执行程序

数据分割

MBXP
- Python
- Java
- Javascript
- Typescript
- Kotlin
- Ruby
- Php
- Cpp
- Csharp
- Go
- Perl
- Scala
- Swift

数据集创建

数据集的社会影响

使用此数据集可以更好地评估代码生成模型，从而在使用此类模型时减少问题的引入。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集