mbpp_agentic

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/RohamKoohestani/mbpp_agentic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本(text)、代码(code)、任务ID(task_id)、测试设置代码(test_setup_code)、测试列表(test_list)和挑战测试列表(challenge_test_list)等字段。数据集被划分为mbpp_agentic一个部分，包含500个示例，总大小为871785字节。具体数据集内容描述未提供。

创建时间：

2025-08-01

原始信息汇总

数据集概述

基本信息

数据集名称: mbpp_agentic
存储位置: https://huggingface.co/datasets/RohamKoohestani/mbpp_agentic
下载大小: 372251字节
数据集大小: 871785字节
样本数量: 500

数据结构

特征

text: 字符串类型，描述任务内容
code: 字符串类型，包含代码实现
task_id: 整型，任务唯一标识符
test_setup_code: 字符串类型，测试设置代码
test_list: 字符串序列，测试列表
challenge_test_list: 字符串序列，挑战测试列表

数据划分

划分名称: mbpp_agentic
样本数: 500
字节数: 871785

配置信息

配置名称: default
数据文件路径: data/mbpp_agentic-*

搜集汇总

数据集介绍

构建方式

在程序合成领域，mbpp_agentic数据集通过系统性采集500个Python编程任务构建而成。每个样本包含自然语言描述的任务需求、对应的实现代码、唯一任务标识符及测试框架，其中测试框架由初始化代码和测试用例序列组成。数据集特别设计了挑战性测试用例集合，用于评估代码在边界条件下的鲁棒性，所有数据均经过标准化处理以确保格式统一。

特点

该数据集最显著的特征在于其双重测试验证体系，常规测试列表用于基础功能验证，挑战性测试列表则针对异常处理和性能边界进行压力测试。数据条目采用多字段结构化存储，自然语言描述与代码实现严格对应，任务ID保证样本可追溯性。测试框架的完整性使得该数据集特别适合评估模型在真实编程环境中的综合表现。

使用方法

使用该数据集时，建议采用分层抽样策略确保训练集覆盖各类编程范式。模型训练阶段可将自然语言描述作为输入，生成的代码需通过内置测试框架验证。评估时应分别分析常规测试和挑战性测试的通过率，其中挑战性测试结果更能反映模型的泛化能力。数据集的标准化结构便于直接集成到主流机器学习框架中进行端到端训练。

背景与挑战

背景概述

mbpp_agentic数据集作为编程自动化领域的重要资源，由专业研究团队于近年构建，旨在解决智能体编程任务中的代码生成与验证问题。该数据集聚焦于Python编程语言环境，包含500个精心设计的编程任务，每个任务均配备文本描述、参考代码、测试用例及挑战性测试集。其核心价值在于为研究社区提供了评估AI代理在理解自然语言需求、生成功能代码及通过复杂测试方面能力的标准化基准，对推动程序合成与自动化编程技术的发展具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何精准建模自然语言指令与可执行代码间的复杂映射关系，以及设计具有足够区分度的挑战性测试用例来评估模型的泛化能力；在构建过程中，需平衡任务难度梯度分布，确保测试用例能有效验证代码功能边界，同时维持数据集中编程范式的多样性以反映真实开发场景。这些挑战直接关系到数据集作为评估工具的可靠性与实用性。

常用场景

经典使用场景

在编程教育和自动化代码生成领域，mbpp_agentic数据集以其结构化的编程任务和测试用例成为评估模型性能的黄金标准。研究者通过该数据集能够系统性地测试模型在理解自然语言指令、生成可执行代码以及通过预设测试用例的能力，尤其在考察模型处理复杂逻辑和边界条件时展现出独特价值。

实际应用

工业界的智能编程助手系统广泛采用mbpp_agentic作为核心测试集，用以优化代码补全、错误检测等核心功能。教育科技公司则利用其构建交互式编程学习平台，通过自动评估学习者提交的代码解决方案，实现个性化反馈和自适应教学，大幅提升编程初学者的实践能力培养效率。

衍生相关工作

基于该数据集衍生的研究形成了两大主流方向：其一是测试驱动型代码生成框架的演进，如结合强化学习的Test-Aware Generation方法；其二是多模态编程系统的创新，将视觉化调试信息与代码生成相结合。这些工作持续拓展着程序合成技术的边界，相关成果在ICLR、NeurIPS等顶会形成系列突破性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集