code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-0.5B-Instruct

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/wentingzhao/code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-0.5B-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表、生成代码、真实奖励和奖励等字段。数据集分为测试集，共有500个样本。每个样本可能包含了不同编程语言的测试用例和代码。

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

该数据集作为代码生成领域的专业评测基准，采用多维度构建策略。基于MBPP（Mostly Basic Python Problems）基准任务框架，通过Qwen2.5系列代码生成模型进行样本扩展，包含16种温度参数下的生成变体。核心数据单元涵盖任务ID、自然语言描述、参考代码、测试用例等结构化字段，并通过0.5B到7B参数量级模型的交叉验证确保数据可靠性。验证模块特别设计了语言类型标注和测试用例序列化存储方案，形成包含500个样本的标准测试集。

特点

数据集最显著的特征在于其双重评估体系设计。每个样本不仅包含基础测试用例（test_list），还特别设置了挑战性测试集（challenge_test_list）用于检测代码鲁棒性。数据记录中完整保留了不同规模语言模型生成的代码序列（generated_code）及其对应的质量评分（rewards），为研究模型规模与代码生成能力的关系提供实证基础。元数据结构中创新的verification_info字段采用嵌套式设计，将测试环境配置与具体用例分离存储，兼顾了数据可读性和计算效率。

使用方法

使用该数据集时建议采用分层验证流程。通过task_id字段可快速定位具体编程任务，text与code字段构成标准的输入-输出对。测试阶段应优先运行test_setup_code初始化环境，继而依次验证test_list基础用例和challenge_test_list边界条件。generated_code字段包含不同超参数下的生成结果，配合gt_rewards与rewards评分数据，可进行生成质量对比分析。验证阶段需注意verification_info中的language字段指定执行环境，test_cases序列提供自动化验证框架。

背景与挑战

背景概述

code_mbpp_Qwen2.5-Coder-7B-Instruct_temp1.0_num16_tests_mbpp_Qwen2.5-Coder-0.5B-Instruct数据集是面向代码生成与评估领域的重要资源，由Qwen团队开发并发布。该数据集专注于解决程序代码自动生成与功能验证的核心问题，包含500个编程任务实例，每个实例均配有自然语言描述、参考代码、测试用例及验证信息。其设计理念源于提升大语言模型在代码生成任务中的准确性与泛化能力，通过结构化测试框架对生成代码进行多维度评估。数据集构建借鉴了MBPP基准的方法论，但通过引入更复杂的挑战性测试用例和量化评估指标，为代码生成模型的性能优化提供了新的研究范式。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何确保生成代码既能通过基础测试用例又能满足边缘场景的功能需求，这要求模型具备深层语义理解和逻辑推理能力；在构建过程中，测试用例的设计需平衡覆盖度与计算成本，挑战性测试的生成需要人工专家介入以保证质量。数据验证环节存在动态执行生成代码的安全风险，需设计隔离环境。多维度奖励指标的量化面临信噪比权衡，自动化评估体系与人工评判标准的一致性仍需优化。

常用场景

经典使用场景

在代码生成与程序合成领域，该数据集以其结构化测试用例和奖励评估机制，成为验证大语言模型编码能力的基准工具。研究者通过分析模型生成的代码与标准答案的匹配度，能够系统评估模型对Python语法理解、算法实现和边界条件处理的准确度，特别适合用于Few-shot学习场景下的模型微调与能力测试。

实际应用

工业界的持续集成系统已开始整合此类数据集的评估框架，用于自动化测试AI辅助编程工具的输出质量。教育领域则将其转化为编程教学素材，通过对比模型生成代码与学生作业的测试通过率，开发智能辅导系统。在开源社区维护中，该数据集的测试用例结构被借鉴用于验证用户提交的代码补丁。

衍生相关工作

基于该数据集构建的评估方法论催生了系列创新研究，包括DeepMind的AlphaCode竞赛解决方案和Meta的CodeLlama优化工作。其测试用例设计思想被迁移至多语言代码评估基准HumanEval-X，而奖励机制设计则启发了GitHub Copilot的质量监控系统。后续研究进一步扩展了其在代码修复和文档生成等衍生任务中的应用维度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集