mbpp_qwen-7b-unique_t0.0_n1_generated_tests
收藏Hugging Face2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/datasets/test-gen/mbpp_qwen-7b-unique_t0.0_n1_generated_tests
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含任务ID、文本、代码以及测试相关的信息,适用于编程任务测试与验证。测试集包含500个示例。
创建时间:
2025-05-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: mbpp_qwen-7b-unique_t0.0_n1_generated_tests
- 下载大小: 141536 bytes
- 数据集大小: 321842 bytes
- 示例数量: 500
- 数据拆分: test (500个示例)
数据结构
- 字段:
task_id: int32类型,任务IDtext: string类型,文本描述code: string类型,代码内容test_list: string序列,测试列表test_setup_code: string类型,测试设置代码challenge_test_list: string序列,挑战测试列表verification_info: 结构体language: string类型,语言信息test_cases: string序列,测试用例
配置信息
- 配置名称: default
- 数据文件路径: data/test-*
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen-7B语言模型生成,专注于编程任务测试用例的构建。通过独特的温度参数设置(t=0.0)和单次采样(n=1),确保了生成测试用例的一致性和可靠性。数据集包含500个编程任务实例,每个实例均包含任务ID、描述文本、代码实现、测试列表以及验证信息等结构化字段,为编程语言处理研究提供了丰富的实验素材。
特点
数据集的核心特点体现在其严谨的测试用例设计上。每个编程任务不仅包含基础测试用例,还特别设计了挑战性测试列表,用于评估代码的鲁棒性。验证信息结构详细记录了测试语言环境和具体测试案例,为模型性能评估提供了多维度的参考标准。数据集的轻量级设计(下载大小141KB)确保了研究者的使用便捷性。
使用方法
研究者可通过加载HuggingFace平台的标准数据集接口直接访问该资源。数据以test拆分形式组织,包含500个完整实例,适用于代码生成模型的训练与评估。典型应用场景包括:使用text字段作为输入提示,验证模型生成的code能否通过test_list中的测试用例;或利用challenge_test_list进行对抗性测试,全面评估模型的编程能力。
背景与挑战
背景概述
mbpp_qwen-7b-unique_t0.0_n1_generated_tests数据集是编程领域的一项重要资源,由Qwen团队构建,旨在为代码生成与测试用例验证研究提供高质量数据支持。该数据集基于MBPP(Mostly Basic Python Problems)基准扩展,专注于Python编程问题的自动化测试生成与验证。数据集的核心研究问题围绕如何通过大规模语言模型生成可靠的测试用例,以提升代码功能的准确性与鲁棒性。其影响力体现在为代码生成模型的评估提供了标准化测试框架,推动了程序合成领域的进步。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题层面,如何确保生成的测试用例全面覆盖代码的边界条件与异常场景,是验证代码功能完整性的关键难题;构建过程层面,平衡测试用例的多样性与执行效率需要精细设计,同时避免生成冗余或无效测试。此外,测试代码与原始问题的语义一致性校验也需克服自然语言与编程语言之间的鸿沟。
常用场景
经典使用场景
在程序合成与代码生成领域,mbpp_qwen-7b-unique_t0.0_n1_generated_tests数据集为研究者提供了丰富的测试用例与验证信息。该数据集通过结构化存储任务描述、代码实现及对应测试用例,成为评估大语言模型代码生成能力的基准工具。其独特的挑战性测试列表设计,能够有效检验生成代码在边界条件和异常处理方面的鲁棒性。
实际应用
在工业界的持续集成与自动化测试场景中,该数据集可作为生成测试用例的参考标准。开发团队可借鉴其测试列表生成方法,提升单元测试的覆盖率。教育领域则可将其转化为编程教学的实践素材,帮助学生理解代码实现与测试用例间的映射关系,培养工程化编程思维。
衍生相关工作
基于该数据集衍生的研究工作主要集中在智能编程助手的方向。多项经典工作利用其测试验证框架,开发了具有自我纠错能力的代码生成模型。在ICLR等顶会上,可见到采用该数据集评估指标的研究,如测试通过率驱动的强化学习方案,以及基于测试反馈的迭代优化算法等创新方法。
以上内容由遇见数据集搜集并总结生成



