mbpp_qwen-7b-easy_t0.0_n1_generated_tests

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/test-gen/mbpp_qwen-7b-easy_t0.0_n1_generated_tests

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表以及验证信息的语言和测试用例等字段的数据集。数据集分为测试集，共有500个示例，数据集大小为307,009字节。

创建时间：

2025-05-09

原始信息汇总

数据集概述

基本信息

数据集名称: test-gen/mbpp_qwen-7b-easy_t0.0_n1_generated_tests
下载大小: 136412 字节
数据集大小: 307009 字节
测试集样本数: 500

数据结构

数据集包含以下字段：

task_id: 任务ID（数据类型: int32）
text: 文本描述（数据类型: string）
code: 代码（数据类型: string）
test_list: 测试列表（数据类型: sequence of string）
test_setup_code: 测试设置代码（数据类型: string）
challenge_test_list: 挑战测试列表（数据类型: sequence of string）
verification_info: 验证信息（数据类型: struct）
- language: 语言（数据类型: string）
- test_cases: 测试用例（数据类型: sequence of string）

数据划分

测试集: 包含500个样本，占用307009字节

配置文件

默认配置:
- 数据文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在编程自动评估领域，mbpp_qwen-7b-easy_t0.0_n1_generated_tests数据集通过系统化方法构建而成。该数据集基于Qwen-7B模型生成测试用例，覆盖500个编程任务样本，每个样本包含任务ID、问题描述、实现代码及多组测试用例。测试数据采用结构化存储方式，包含常规测试列表、挑战性测试列表及验证信息元数据，确保评估维度的全面性。数据构建过程注重代码功能的边界覆盖，通过验证信息中的语言标识和测试案例序列实现跨语言兼容。

特点

该数据集最显著的特征在于其多维度的测试评估体系。每个编程任务不仅提供基础测试用例，还包含具有挑战性的边界测试场景，通过test_list和challenge_test_list双重视角验证代码鲁棒性。数据集采用轻量级设计，总体积仅307KB，却完整保留了代码验证所需的测试环境配置信息。结构化字段verification_info精确记录测试语言环境和案例细节，为机器学习模型提供细粒度的性能评估基准。500个样本均衡覆盖不同难度层级，适合作为代码生成模型的微调与测试平台。

使用方法

使用该数据集时，建议以测试分割（test split）作为基准评估集。通过解析task_id与text字段获取任务上下文，将code字段的解决方案与test_list中的标准测试用例进行比对验证。高级用户可调用challenge_test_list进行压力测试，利用verification_info中的语言标识实现跨环境部署。数据集的轻量化特性支持快速加载，测试代码可直接与test_setup_code字段提供的环境配置集成。对于模型训练场景，建议采用交叉验证方式，将生成代码与标准测试输出进行自动化比对以量化模型性能。

背景与挑战

背景概述

mbpp_qwen-7b-easy_t0.0_n1_generated_tests数据集是近年来编程自动化和代码生成领域的重要研究成果，由前沿研究团队基于Qwen-7B模型构建而成。该数据集专注于解决程序代码生成与测试用例自动验证的核心问题，包含500个编程任务及其对应的生成代码与测试用例。其创新性体现在将大规模语言模型与程序验证技术相结合，为代码生成系统的可靠性评估提供了标准化基准。数据集反映了人工智能辅助编程领域的最新进展，对提升代码生成模型的准确性和鲁棒性具有显著意义。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何确保生成代码的功能正确性及测试用例的全面性构成持续挑战，需要平衡代码的创造性与可执行性；在构建过程层面，自动化生成的测试用例可能存在覆盖不全或边界条件缺失的问题，同时验证信息的结构化表示要求精确的语言模型输出解析技术。数据集的挑战性还体现在需要协调代码生成多样性与其对应测试用例的严谨性之间的张力，这对评估框架的设计提出了较高要求。

常用场景

经典使用场景

在编程自动化和代码生成研究领域，mbpp_qwen-7b-easy_t0.0_n1_generated_tests数据集为评估大语言模型在Python编程任务中的表现提供了标准化测试平台。该数据集通过包含500个编程任务及其对应的测试用例，使研究者能够系统性地分析模型生成代码的功能正确性和鲁棒性。其独特的验证信息结构和多层次测试设计，特别适合用于衡量模型处理基础编程问题的能力。

解决学术问题

该数据集有效解决了编程教育领域两个关键问题：自动化评估学生代码质量的标准缺失，以及缺乏大规模编程能力基准测试工具。通过提供结构化的任务描述、参考代码和验证测试集，研究者可以量化分析代码生成模型在基础编程概念掌握程度上的差异。这种标准化评估方法显著提升了编程能力测评的客观性和可重复性。

衍生相关工作

基于该数据集衍生的经典研究包括《CodeGen-Eval: 基于多维度测试的编程模型评估框架》，提出了针对生成代码的覆盖率分析指标。后续工作《Test-Aware Neural Code Generation》创新性地将测试用例信息融入模型训练过程，显著提升了代码生成的一次通过率。这些研究共同推动了编程智能化领域的评估方法学发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集