code_mbpp_Qwen2.5-Coder-3B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/wentingzhao/code_mbpp_Qwen2.5-Coder-3B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含编程任务相关的信息，如任务ID、文本描述、代码、测试代码列表、设置测试的代码、挑战测试代码列表、生成的代码以及奖励值等信息。数据集被划分为测试集，共有500个样本。此外，还包含了验证信息，如编程语言和测试用例。数据集的总大小为10,305,179字节，下载大小为2,886,114字节。

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

该数据集作为代码生成领域的专业评测基准，采用多维度构建策略。核心数据来源于MBPP（Mostly Basic Python Problems）基准测试的500个编程任务，每个任务包含自然语言描述、参考代码及测试用例。创新性地引入Qwen2.5-Coder系列大模型生成的16个候选代码方案，通过32B参数模型的强化学习机制对生成代码进行质量评估，形成包含代码正确性评分（gt_rewards）和模型预测评分（rewards）的双重验证体系。验证信息模块（verification_info）详细记录测试语言环境和具体测试用例，确保评估过程的可追溯性。

特点

数据集最显著的特征在于其多维度的代码质量评估体系。每个编程任务不仅提供标准解决方案，还包含由先进代码生成模型产生的16种变体代码，形成丰富的对比研究素材。测试用例设计涵盖常规测试（test_list）和挑战性测试（challenge_test_list）双重验证场景，测试配置代码（test_setup_code）确保执行环境一致性。结构化存储的验证信息支持跨语言代码评估，浮点型奖励分数序列实现代码质量的量化比较，为研究代码生成模型的性能梯度提供精细数据支撑。

使用方法

使用该数据集时，建议采用分层解析策略。通过task_id字段实现任务级索引，text-code-test_list构成基础的三元组评估单元。研究者可对比generated_code序列中不同版本代码在gt_rewards与rewards指标上的表现差异，分析模型预测与真实评估的偏差规律。验证信息中的language字段支持特定编程语言的过滤分析，test_cases可用于构建自定义评估流程。对于强化学习研究，奖励分数序列可直接作为策略优化的目标函数，而挑战性测试用例则为模型鲁棒性测试提供高标准基准。

背景与挑战

背景概述

code_mbpp_Qwen2.5-Coder-3B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct数据集是近年来在程序代码生成与评估领域涌现的重要资源，由前沿研究团队基于MBPP（Mostly Basic Python Problems）基准构建而成。该数据集聚焦于人工智能辅助编程的核心问题，通过提供结构化的代码任务、测试用例及多维度评估指标，为研究大规模语言模型在代码生成任务中的性能表现提供了标准化测试平台。其创新性地整合了任务描述、参考代码、测试用例及模型生成结果，显著推动了代码生成领域从单纯功能实现到可靠性验证的研究范式转变。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何精准评估生成代码的功能正确性与鲁棒性成为关键难题，需要设计兼顾覆盖率和公平性的测试验证机制；在构建过程中，平衡任务难度梯度、确保测试用例的完备性以及处理不同编程语言特性带来的评估偏差等技术挑战尤为突出。数据集构建者还需解决生成代码与人工编写代码的语义等价性判定问题，以及在大规模自动化评估中维持计算效率与评估精度的平衡。

常用场景

经典使用场景

在程序代码生成与评估领域，该数据集通过提供包含任务描述、参考代码及测试用例的结构化数据，为研究者构建了一个标准化的基准测试平台。其典型应用场景包括自动化代码生成模型的训练与验证，特别是针对Python编程任务的解决方案评估。数据集中的多维度验证信息使研究者能够系统性地分析模型在代码功能性、鲁棒性等方面的表现。

实际应用

在实际开发环境中，该数据集支撑的模型可应用于智能编程助手、自动化测试用例生成等场景。教育领域可利用其构建编程教学系统，通过比对生成代码与参考实现帮助学生理解编程范式。企业级开发中，基于该数据集训练的模型能够辅助工程师快速生成原型代码，显著提升软件开发效率。

衍生相关工作

该数据集已催生多项代码生成领域的创新研究，包括基于强化学习的代码优化方法、多模态编程任务理解框架等。部分研究利用其测试验证机制开发了新型代码评估指标，另有工作通过扩展数据集的挑战性测试案例，推动了模型在复杂编程场景下的性能突破。这些衍生研究持续推动着智能编程技术的发展前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集