mbpp

Name: mbpp
Creator: RLAIF
Published: 2025-04-05 07:51:09
License: 暂无描述

Hugging Face2025-04-05 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/RLAIF/mbpp

下载链接

链接失效反馈

官方服务：

资源简介：

Mostly Basic Python Problems (MBPP) 数据集包含大约1000个由众人协作创作的Python编程问题，这些问题旨在被入门级程序员解决，涵盖了编程基础、标准库功能等内容。每个问题包括一个任务描述、代码解决方案和3个自动化测试用例。数据集的一部分已经由作者手动验证过。

The Mostly Basic Python Problems (MBPP) dataset comprises approximately 1,000 Python programming problems collaboratively developed by a community of contributors. Targeted at entry-level programmers, the problems cover basic programming fundamentals, standard library functionalities and other related topics. Each problem includes a task description, a code solution, and three automated test cases. A subset of this dataset has been manually validated by the dataset authors.

提供机构：

RLAIF

创建时间：

2025-04-05

原始信息汇总

Mostly Basic Python Problems (mbpp) 数据集概述

数据集简介

名称: Mostly Basic Python Problems (mbpp)
用途: 评估代码生成模型
语言: 英文 - Python代码
许可证: CC-BY-4.0
数据量: 小于1K样本
来源: 原始数据集
任务类型: 文本到文本生成
标签: 代码生成

数据集结构

配置版本

full
- 特征:
  - task_id: 任务ID
  - text: 编程任务描述
  - code: 编程任务解决方案
  - test_list: 测试用例列表
  - test_setup_code: 测试设置代码
  - challenge_test_list: 挑战性测试用例列表
- 数据分割:
  - train: 374个样本
  - test: 500个样本
  - validation: 90个样本
  - prompt: 10个样本
sanitized
- 特征:
  - source_file: 源文件
  - task_id: 任务ID
  - prompt: 编程任务描述
  - code: 编程任务解决方案
  - test_imports: 测试导入
  - test_list: 测试用例列表
- 数据分割:
  - train: 120个样本
  - test: 257个样本
  - validation: 43个样本
  - prompt: 7个样本

数据集创建

创建理由: 提供一组简单的编程任务及其解决方案，用于评估代码生成功能。
数据收集: 数据集由Google内部众包创建，部分数据经过第二轮注释以改进任务描述。
注释者: Google内部众包团队。

使用注意事项

安全执行: 在安全环境中执行生成的Python代码，以避免潜在危害。
社会影响: 通过该数据集可以更好地评估代码生成模型，减少使用此类模型时引入的问题。
局限性: 任务描述可能不够明确，sanitized版本通过第二轮注释改进此问题。

附加信息

维护者: Google Research
引用信息: bibtex @article{austin2021program, title={Program Synthesis with Large Language Models}, author={Austin, Jacob and Odena, Augustus and Nye, Maxwell and Bosma, Maarten and Michalewski, Henryk and Dohan, David and Jiang, Ellen and Cai, Carrie and Terry, Michael and Le, Quoc and others}, journal={arXiv preprint arXiv:2108.07732}, year={2021}
贡献者: @lvwerra 添加此数据集。

搜集汇总

数据集介绍

构建方式

MBPP（Mostly Basic Python Problems）数据集旨在为代码生成任务提供高质量的基准测试。该数据集通过众包平台收集了974个Python编程问题，每个问题均包含任务描述、解决方案代码和自动化测试用例。构建过程中特别注重问题的多样性和实用性，涵盖从基础算法到实际应用的广泛主题，所有问题均经过严格验证以确保正确性和适度的难度梯度。

特点

该数据集最显著的特点在于其精心设计的测试驱动开发范式，每个问题都配备3个断言测试用例，为评估模型生成的代码功能正确性提供客观标准。问题描述采用自然语言编写，模拟真实编程场景中的需求说明，难度分布均匀且覆盖字符串操作、数学计算、数据结构等常见编程领域。数据集的紧凑规模和高质量标注使其成为评估模型Python代码生成能力的理想选择。

使用方法

使用MBPP数据集时，建议将任务描述作为模型输入，要求生成可通过所有测试用例的Python代码。评估指标通常采用测试用例通过率，可细分为精确匹配通过率和功能正确通过率两个维度。研究人员可通过零样本或少样本学习设置来测试模型的代码生成能力，也可通过微调预训练模型来提升特定领域的代码生成性能。数据集的标准划分包含训练集、验证集和测试集，确保评估结果的可靠性。

背景与挑战

背景概述

MBPP（Mostly Basic Python Problems）数据集由Google Research团队于2021年推出，旨在为代码生成与程序合成研究提供高质量的基准测试集。该数据集聚焦于Python编程语言的基础问题，涵盖从简单算法到实际应用场景的多样化任务，为评估模型在理解自然语言指令并转化为有效代码的能力设立了新标准。其构建基于众包平台收集的真实编程问题，经过严格筛选和验证，迅速成为程序合成领域的重要参考数据集，推动了代码生成模型的性能提升与研究进展。

当前挑战

MBPP数据集面临的挑战主要体现在两个方面：在领域问题层面，如何准确评估模型对复杂编程逻辑和边界条件的处理能力，尤其当问题涉及多步骤推理或隐含约束时，现有评估指标可能无法全面反映模型缺陷；在构建过程中，确保问题表述的清晰性与解的唯一性耗费大量人力，需平衡问题难度分布并避免数据泄露风险，同时维持与现实编程场景的相关性也成为持续优化的难点。

常用场景

经典使用场景

在编程教育和自动化代码生成领域，mbpp数据集因其精心设计的编程任务和测试用例而备受青睐。研究者通常利用该数据集评估模型在理解自然语言指令后生成功能正确代码的能力，尤其在零样本或少样本学习场景下，mbpp为衡量模型泛化性能提供了标准化基准。

实际应用

工业界的智能编程助手广泛采用mbpp作为核心测试集，用以优化代码补全系统的实用性。教育机构则借助该数据集设计自适应编程课程，通过分析模型在mbpp任务上的错误模式，精准定位初学者常见的逻辑盲区，为计算机科学教学提供数据驱动的改进方案。

衍生相关工作

基于mbpp的基准测试催生了如Codex、AlphaCode等里程碑式工作，这些研究通过在该数据集上的迭代优化，显著提升了大语言模型的代码生成能力。后续研究进一步扩展了mbpp的应用维度，包括代码风格迁移、程序修复等衍生方向，形成了程序生成领域的完整研究生态。

以上内容由遇见数据集搜集并总结生成