JetBrains-Research/mbpp-c

Name: JetBrains-Research/mbpp-c
Creator: JetBrains-Research
Published: 2025-03-14 20:44:06
License: 暂无描述

Hugging Face2025-03-14 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/mbpp-c

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个MBPP数据集的处理版本，其中修复了函数命名，并添加了用于代码补全的列。数据集包含编程问题的唯一标识符、自然语言描述、完整实现代码、测试用例列表、测试设置代码、挑战测试列表、主函数名称、函数签名、带有文档字符串的函数签名、带有导入的函数签名、是否为代码补全任务标识、是否为导入语句补全任务标识以及代码补全目标。

This is a processed version of the MBPP dataset with fixed function namings and added columns for code completion formulation. The dataset includes a unique identifier for each programming problem, natural language description, complete implementation code, list of test cases, test setup code, challenge test list, main function name, function signature, function signature with docstring, function signature with imports, boolean flags indicating if it is a code completion task or an import statement completion task, and the code completion target.

提供机构：

JetBrains-Research

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，MBPP-C数据集通过对原始MBPP数据集进行系统化处理而构建。该过程首先修正了函数命名，并引入了多个专门为代码补全任务设计的字段，如签名与文档字符串的组合。每个数据点均经过严格验证，确保其代码能够通过所有预设测试用例，从而保障了数据的一致性与可靠性。

特点

该数据集的核心特点在于其丰富的结构化特征，涵盖了从自然语言问题描述到完整实现代码的多维度信息。它不仅包含标准的函数签名与测试列表，还特别设计了用于代码补全的字段，如带有文档字符串的签名及导入语句，支持多种代码生成场景。数据集划分为训练、测试、验证及提示四个子集，便于模型开发与评估。

使用方法

使用该数据集时，研究人员可依据任务需求灵活调用不同字段。例如，基于自然语言描述生成完整代码，或利用签名与文档字符串进行代码补全。测试列表与设置代码为模型输出提供了自动化验证机制，确保功能正确性。数据集的划分支持标准的机器学习流程，适用于训练、调优及性能评估。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与补全任务日益成为研究热点。JetBrains-Research团队于近年推出的MBPP-C数据集，作为MBPP数据集的优化版本，专注于Python编程问题的自动化求解。该数据集由JetBrains研究院主导构建，旨在通过自然语言描述与对应代码的映射，推动大语言模型在代码理解与生成方面的能力演进。其核心研究问题聚焦于如何精准地将人类语言指令转化为可执行且通过测试的代码片段，对提升编程效率、辅助开发者工作具有深远影响，已成为评估代码生成模型性能的重要基准之一。

当前挑战

MBPP-C数据集所针对的代码生成领域，面临语义对齐与逻辑一致性的双重挑战。自然语言描述的模糊性、编程语境的多义性，以及测试用例的覆盖完整性，均对模型的泛化能力构成严峻考验。在数据集构建过程中，研究人员需克服函数命名标准化、代码结构规范化，以及测试套件可靠性的技术难题。同时，确保代码补全任务与完整实现任务之间的数据一致性，并处理导入语句与文档字符串的集成，亦是构建高质量数据的关键障碍。

常用场景

经典使用场景

在代码生成与智能编程辅助领域，MBPP-C数据集作为经典基准，广泛用于评估大语言模型在Python编程任务上的能力。其核心场景围绕自然语言到代码的转换，模型接收文本描述后需生成可通过预设测试的完整函数实现。该数据集精心设计的测试用例确保了生成代码的功能正确性，为模型性能提供了可靠验证。

解决学术问题

该数据集有效应对了程序合成研究中代码功能正确性评估的挑战。传统基准往往缺乏严谨的测试验证，而MBPP-C通过集成完备的测试列表，为生成代码的语义准确性提供了客观度量标准。它促进了学术界对代码生成模型泛化能力、逻辑推理鲁棒性以及长上下文理解深度的系统性探索，推动了该领域评估方法的科学化与标准化。

衍生相关工作

围绕MBPP-C数据集，学术界衍生出一系列经典研究工作。这些工作主要聚焦于提升代码生成模型的性能，例如探索更高效的指令微调策略、设计针对代码语法与语义的强化学习框架，以及构建结合执行反馈的迭代优化方法。该数据集也常被用于对比分析不同模型架构在程序合成任务上的优劣，成为驱动代码智能领域算法创新的重要催化剂。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集