code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/wentingzhao/code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含编程任务的数据集，每个任务都有唯一的标识符，任务相关的文本描述，代码片段，测试代码列表，挑战测试代码列表，生成的代码，以及两个奖励值。此外，还包括了验证信息，如编程语言和测试用例。

This is a dataset consisting of programming tasks. Each task has a unique identifier, task-related textual descriptions, code snippets, lists of test code, lists of challenge test code, generated code, and two reward values. Additionally, it includes validation information such as programming languages and test cases.

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct
下载大小: 2570258字节
数据集大小: 7395166字节
测试集样本数: 500

数据结构

特征:
- task_id: 整型(int32)，任务ID
- text: 字符串(string)，文本描述
- code: 字符串(string)，代码
- test_list: 字符串序列(sequence:string)，测试列表
- test_setup_code: 字符串(string)，测试设置代码
- challenge_test_list: 字符串序列(sequence:string)，挑战测试列表
- generated_code: 字符串序列(sequence:string)，生成的代码
- gt_rewards: 浮点数序列(sequence:float64)，真实奖励
- rewards: 浮点数序列(sequence:float64)，奖励
- verification_info: 结构体(struct)
  - language: 字符串(string)，语言
  - test_cases: 字符串序列(sequence:string)，测试用例

数据拆分

测试集(test):
- 路径: data/test-*
- 字节数: 7395166
- 样本数: 500

搜集汇总

数据集介绍

构建方式

该数据集基于MBPP（Mostly Basic Python Problems）基准构建，通过Qwen2.5-Coder系列模型生成多样化代码解决方案。原始任务包含500个Python编程问题，每个问题配备自然语言描述、参考代码及测试用例。数据增强阶段采用温度参数1.0的采样策略，由16B和32B参数规模的指令调优模型并行生成16组候选代码，并通过自动化测试框架验证功能正确性，最终形成包含原始任务ID、文本描述、多版本生成代码及对应测试结果的立体化数据结构。

特点

数据集显著特点体现在多维度的评估体系构建，不仅保留原始MBPP的人工验证测试用例，还包含模型生成的挑战性测试案例。每个编程解决方案配备双重奖励信号：基于测试通过率的gt_rewards和模型自主评估的rewards，为研究代码生成模型的性能差异提供量化依据。结构化verification_info字段详细记录编程语言版本和测试用例执行环境，确保实验结果的可复现性。500个任务的均匀分布使数据集兼具广度与深度，适合评估模型在基础编程场景下的稳健性。

使用方法

使用该数据集时建议采用分层评估策略，首先通过test_list验证基础功能实现，再利用challenge_test_list检测代码鲁棒性。generated_code字段包含多模型生成的解决方案，支持横向比较不同规模模型的编码能力差异。研究代码生成质量时，可交叉参考gt_rewards与rewards的相关性分析。数据集采用标准JSON格式存储，通过HuggingFace数据集库可直接加载test分割，每个样本的完整元数据支持端到端的代码生成评估流水线构建，特别适合大语言模型在编程辅助领域的微调与基准测试。

背景与挑战

背景概述

code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-32B-Instruct数据集是面向代码生成与评估领域的重要资源，由Qwen研究团队构建。该数据集聚焦于程序合成任务，旨在通过自然语言描述生成功能性代码片段，并验证其正确性。数据集包含500个编程任务实例，每个实例均配备文本描述、参考代码、测试用例及自动化验证信息，为评估大语言模型在代码生成方面的能力提供了标准化基准。其核心研究问题在于探索自然语言到代码的转换机制，以及如何通过测试驱动的方法量化生成代码的质量。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，代码生成任务需要模型同时理解自然语言语义和编程语言语法，而测试用例的设计需全面覆盖边界条件和异常情况，这对评估体系的完备性提出较高要求；在构建过程中，如何平衡任务难度分布、确保测试用例的精确性以及设计可量化的评估指标，都是需要克服的技术难点。此外，生成代码与参考实现的功能等价性验证，以及多编程语言支持的扩展性，也构成了数据集构建的潜在挑战。

常用场景

经典使用场景

在程序代码生成与验证领域，该数据集通过提供任务描述、参考代码及测试用例的完整三元组结构，成为评估代码生成模型性能的基准工具。其多维度测试框架特别适用于衡量模型处理Python编程任务时，在功能实现、边界条件处理等方面的能力，为研究神经符号系统在代码合成中的表现提供了标准化实验环境。

实际应用

在工业级代码辅助工具开发中，该数据集可作为持续集成的重要测试套件，帮助验证智能编程助手生成代码的可靠性。教育领域则利用其丰富的任务场景构建编程自动评分系统，既能评估学习者代码质量，又能为个性化编程教学提供诊断依据。开源社区也常借鉴其测试用例设计方法论来完善软件模块的单元测试。

衍生相关工作

基于该数据集验证框架，学术界衍生出Codex-Eval等代码生成评估体系，提出了动态测试通过率等创新指标。其测试用例复用机制启发了HumanEval++等增强型基准的构建，而任务描述与代码的配对模式则为CodeSearchNet等跨模态检索研究提供了数据范本，显著促进了编程智能领域的评估方法论发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集