code_mbpp_qwen2.5-3b_t0.1_n8_tests_mbpp_r1-qwen-32b_t0.6_n1_think

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/test-gen/code_mbpp_qwen2.5-3b_t0.1_n8_tests_mbpp_r1-qwen-32b_t0.6_n1_think

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个字段，其中包括任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表、生成的代码以及奖励值等信息。数据集被划分为测试集，包含500个示例。但是，README文件中并未提供详细的数据集描述，因此无法给出具体的数据集中文描述。

创建时间：

2025-05-20

搜集汇总

数据集介绍

构建方式

在代码生成领域，该数据集基于MBPP基准构建，通过Qwen系列语言模型生成多样化代码解决方案。构建过程采用温度参数调控的采样策略，结合多轮测试验证机制，确保生成代码的覆盖范围与质量。数据采集涵盖500个独立编程任务，每个任务配备完整的测试用例和验证框架，形成结构化的代码评估体系。

特点

该数据集的核心特征在于融合了多维度评估指标，包含标准测试用例与挑战性测试场景的双重验证体系。数据结构呈现层次化特点，既保留原始任务描述与参考代码，又整合模型生成的候选代码及其对应的质量评分。特征字段设计兼顾代码语义完整性与执行验证需求，为代码生成研究提供细粒度分析基础。

使用方法

研究人员可通过加载标准化数据分割直接开展代码生成能力评估，利用内置测试框架自动验证生成代码的功能正确性。使用时应依次解析任务描述、生成代码序列及对应评分数据，结合验证模块执行动态测试。该数据集支持端到端的代码质量评估流程，适用于模型性能对比、代码优化策略研究等场景。

背景与挑战

背景概述

随着人工智能在代码生成领域的深入发展，大规模基准数据集成为评估模型性能的重要工具。该数据集基于MBPP基准构建，聚焦于Python编程任务的自动化解决，由研究团队通过大语言模型生成多样化代码样本。其核心在于探索模型在理解自然语言描述后生成可执行代码的能力，推动了智能编程助手和自动化软件开发的研究进程。

当前挑战

代码生成领域面临语义理解与逻辑一致性的双重挑战，要求模型准确解析问题描述并生成通过单元测试的代码。数据集构建过程中需平衡代码多样性与功能正确性，同时设计覆盖边界情况的测试用例。验证环节涉及大规模动态执行与结果比对，对计算资源和测试框架的鲁棒性提出了较高要求。

常用场景

经典使用场景

在程序合成与代码生成研究领域，该数据集通过提供包含任务描述、参考代码及测试用例的结构化样本，成为评估大语言模型编程能力的基准工具。研究者通常利用其生成的代码序列与预设测试用例的匹配度，系统分析模型在理解自然语言指令、逻辑推理及语法规范遵循等方面的综合表现，为自动化编程技术的发展提供了量化支撑。

实际应用

在工业实践层面，该数据集支撑的代码生成技术已逐步应用于智能编程助手、自动化测试系统等场景。通过比对生成代码与验证测试的吻合度，工程团队能够快速构建原型系统，有效降低软件开发周期中重复性编码的人力成本，同时为教育领域编程教学的个性化反馈机制提供了技术实现路径。

衍生相关工作

基于该数据集构建的评估范式，已催生包括神经符号推理框架、多模态代码生成模型在内的重要研究进展。诸如结合强化学习的程序修复方法、基于测试用例反演的代码优化策略等衍生工作，持续拓展着智能软件工程的边界，并为构建具备自我纠错能力的编程系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集