mbpp_qwen-7b-easy-unique_t0.0_n1_generated_tests

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/test-gen/mbpp_qwen-7b-easy-unique_t0.0_n1_generated_tests

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表和验证信息等字段。测试集分割包含500个示例，数据集大小为309,785字节。数据集的具体内容和用途在README中未详细描述。

创建时间：

2025-05-13

原始信息汇总

数据集概述

基本信息

数据集名称: mbpp_qwen-7b-easy-unique_t0.0_n1_generated_tests
下载大小: 138255字节
数据集大小: 309785字节
示例数量: 500
数据拆分: 仅包含test拆分

数据特征

task_id: 整型(int32)，表示任务ID
text: 字符串(string)，描述任务内容
code: 字符串(string)，包含代码实现
test_list: 字符串序列(sequence of string)，包含测试列表
test_setup_code: 字符串(string)，包含测试设置代码
challenge_test_list: 字符串序列(sequence of string)，包含挑战性测试列表
verification_info: 结构体(struct)，包含以下字段：
- language: 字符串(string)，表示编程语言
- test_cases: 字符串序列(sequence of string)，包含测试用例

数据配置

配置名称: default
数据文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen-7B模型生成的Python编程问题及其测试用例构建而成，专注于提供简洁且独特的编程挑战。数据收集过程通过模型生成初始代码解决方案及配套测试用例，确保每个问题具有唯一性且难度适中。数据集包含500个编程任务，每个任务均配有详细的测试验证信息，涵盖从基础到中等难度的编程场景。

特点

数据集以结构化形式呈现编程问题与测试用例，每个条目包含任务ID、问题描述、参考代码及多组测试用例。其特色在于自动生成的挑战性测试列表和验证信息，可有效评估代码的鲁棒性。数据经过精心筛选，避免了重复问题，且测试覆盖率全面，为编程能力评估提供了标准化基准。

使用方法

使用者可通过加载数据集直接访问编程问题及其测试环境，适用于代码生成模型的训练与评估。测试用例可直接用于验证生成代码的正确性，验证信息中的语言标注支持多语言开发场景。建议将数据集划分为训练集和测试集，用于模型微调或作为编程竞赛的自动化评测基准。

背景与挑战

背景概述

mbpp_qwen-7b-easy-unique_t0.0_n1_generated_tests数据集是编程自动化领域的一项重要资源，专注于代码生成与测试验证的结合。该数据集由Qwen团队构建，旨在为研究人员提供一个标准化的基准，用于评估大语言模型在代码生成任务中的性能。数据集包含500个编程任务，每个任务配有自然语言描述、目标代码以及自动化测试用例，反映了现实世界中软件开发的基本流程。其独特之处在于通过精心设计的测试验证机制，为模型生成的代码提供客观评价标准，推动了代码生成领域从单纯功能实现向可靠性和鲁棒性评估的范式转变。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确评估生成代码的功能正确性仍存在技术瓶颈，现有测试用例覆盖边界条件的能力有限，难以全面反映代码质量；在构建过程层面，创建具有足够多样性和复杂度的编程任务需要平衡难度梯度，同时确保测试用例的完备性，这对人工标注和自动化验证流程都提出了极高要求。测试环境的标准化与语言兼容性问题也为数据集的可扩展性带来挑战。

常用场景

经典使用场景

在程序合成与代码生成研究领域，mbpp_qwen-7b-easy-unique_t0.0_n1_generated_tests数据集通过提供包含任务描述、参考代码及测试用例的结构化样本，为评估大语言模型在基础编程任务上的性能建立了标准化基准。其独特的验证信息字段支持对生成代码进行多语言环境下的功能验证，使得该数据集成为衡量模型代码理解与生成能力的黄金标准。

解决学术问题

该数据集有效解决了代码生成领域缺乏标准化评估框架的痛点，其精心设计的测试用例体系能够量化模型处理基础编程逻辑、边界条件处理等核心能力。通过提供可复现的验证环境，研究者可系统性地分析模型在控制流实现、数据结构操作等基础编程概念上的表现，为改进代码生成模型的鲁棒性提供了关键研究工具。

衍生相关工作

基于该数据集衍生的研究推动了代码生成领域的多项突破，包括测试用例优先级排序算法、基于反馈迭代的代码优化框架等。其验证机制启发了如Codex等知名模型的评估方案设计，相关方法论已被拓展应用于更复杂的编程挑战数据集构建，形成从基础到进阶的完整评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集