mbpp_qwen-7b-random_t0.0_n1_generated_tests

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/test-gen/mbpp_qwen-7b-random_t0.0_n1_generated_tests

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，如任务ID、文本、代码、测试列表、测试设置代码、挑战测试列表和验证信息（包括语言和测试用例）。数据集被划分为测试集，包含500个示例，总共占用321200字节。数据集的下载大小为141056字节。

创建时间：

2025-05-09

原始信息汇总

数据集概述

基本信息

数据集名称: test-gen/mbpp_qwen-7b-random_t0.0_n1_generated_tests
下载大小: 141056 bytes
数据集大小: 321200 bytes
示例数量: 500

数据特征

task_id: 数据类型为int32，表示任务ID。
text: 数据类型为string，表示任务描述文本。
code: 数据类型为string，表示代码内容。
test_list: 数据类型为string序列，表示测试列表。
test_setup_code: 数据类型为string，表示测试设置代码。
challenge_test_list: 数据类型为string序列，表示挑战测试列表。
verification_info: 结构体，包含以下字段：
- language: 数据类型为string，表示语言信息。
- test_cases: 数据类型为string序列，表示测试用例。

数据分割

test:
- 字节数: 321200
- 示例数: 500

配置信息

默认配置:
- 数据文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在编程基准测试领域，mbpp_qwen-7b-random_t0.0_n1_generated_tests数据集通过系统性方法构建而成。该数据集基于Qwen-7B语言模型在温度参数0.0条件下的单次采样生成，包含500个编程任务实例。每个实例由任务ID、问题描述、参考代码、测试用例列表、测试环境配置代码等结构化字段组成，其中验证信息部分还特别记录了编程语言类型和具体测试案例。

特点

该数据集最显著的特征在于其完整的测试验证体系。每个编程任务都配备了标准测试用例和挑战性测试用例双重验证机制，测试环境配置代码的包含使得代码验证过程更加规范化。结构化存储的验证信息确保了测试过程的可追溯性，而统一的JSON格式则便于机器解析和处理。数据实例涵盖多种编程场景，为模型生成的代码提供了全面的评估框架。

使用方法

研究人员可通过HuggingFace平台直接下载该数据集，其标准化的JSON格式确保了良好的兼容性。使用时建议先解析test_setup_code建立测试环境，再依次运行test_list和challenge_test_list中的测试用例进行验证。数据集的层次化结构支持针对特定任务ID的精准调用，verification_info字段则为跨语言编程任务的评估提供了必要信息。

背景与挑战

背景概述

mbpp_qwen-7b-random_t0.0_n1_generated_tests数据集聚焦于程序代码生成与测试领域，由前沿研究机构在2023年构建，旨在探索大规模语言模型在代码生成任务中的性能表现。该数据集基于MBPP（Microsoft Big Programming Problems）基准扩展，通过Qwen-7B模型生成多样化测试用例，为评估模型在代码功能正确性、边界条件覆盖等方面的能力提供了标准化平台。其创新性地引入随机温度参数调控的测试生成策略，显著推动了自动化软件工程和AI辅助编程领域的研究进程。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确评估生成代码的功能完备性仍存在困难，特别是对边界条件和异常输入的覆盖不足；在构建过程中，平衡测试用例的多样性与有效性需要复杂策略，随机温度参数的调控可能导致测试质量波动。同时，验证生成测试与原始任务意图的一致性，以及处理不同编程语言的语法特性差异，均为亟待解决的技术难点。

常用场景

经典使用场景

在程序合成与代码生成研究领域，mbpp_qwen-7b-random_t0.0_n1_generated_tests数据集通过包含500个编程任务及其对应测试用例，为评估大语言模型生成代码的功能正确性提供了标准基准。研究者常利用该数据集验证模型在理解自然语言描述、生成可执行代码以及通过单元测试方面的综合能力，特别是在零样本学习场景下展现模型的泛化性能。

实际应用

在工业级开发工具链中，该数据集可作为自动化代码生成系统的质量检测模块核心组件。教育领域则将其转化为编程教学辅助工具，通过实时验证学习者代码的正确性来提升教学效率。其测试驱动开发的特性尤其适用于持续集成流程，确保AI生成代码在部署前的功能完整性。

衍生相关工作

基于该数据集衍生的研究包括《CodeXGLUE》中的代码生成评测基准，以及多项探索测试用例生成与代码修复结合的创新工作。部分学者扩展了其验证框架，开发出支持多语言程序的评估体系，这些成果在EMNLP、ICLR等顶会上形成了代码生成领域的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集