12,834 generated prompt variants

Name: 12,834 generated prompt variants
Creator: 西安交通大学网络空间安全与工程学院
Published: 2025-05-11 15:14:30
License: 暂无描述

arXiv2025-05-11 更新2025-05-14 收录

下载链接：

http://arxiv.org/abs/2505.06880v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由12,834个生成的提示变体组成，用于评估代码大型语言模型（CLLM）在代码生成任务中的表现。数据集的创建旨在模拟真实世界中问题描述的多样性，以揭示现有基准测试中存在的评估偏差问题。通过将不同类型的变异应用于问题描述，研究者发现即使是微小的调整也可能显著影响CLLM的性能，从而强调了改进基准测试设计的重要性。

This dataset consists of 12,834 generated prompt variants, designed to evaluate the performance of Code Large Language Models (CLLMs) on code generation tasks. It was created to simulate the diversity of problem descriptions in real-world scenarios, with the objective of uncovering evaluation bias issues present in existing benchmarks. By applying various types of variations to problem descriptions, researchers discovered that even minor adjustments can significantly impact the performance of CLLMs, thus emphasizing the importance of improving benchmark design.

提供机构：

西安交通大学网络空间安全与工程学院

创建时间：

2025-05-11

搜集汇总

数据集介绍

构建方式

该数据集通过10种精心设计的变异策略对原始编程问题提示进行系统性改造，构建了12,834个变体样本。研究团队采用字符级错词模拟、同义词替换、大语言模型重述与总结等技术手段，对函数签名、问题描述和示例三个核心模块分别施加语义保持的扰动。特别运用Augly工具包实现键盘输入错误模拟，并基于WordNet进行同义词替换，同时利用GPT-4o生成多样化的自然语言描述变体，全面覆盖现实场景中可能出现的提示变异情况。

特点

数据集创新性地揭示了代码大语言模型评估中的提示敏感性现象，其核心价值在于包含函数名拼写变异、变量名同义替换、描述文本语义重构等多维度的提示变体。每个编程问题平均生成78.3个变体，其中描述重述策略产生1,640个语义等价的自然语言表述，而示例增删策略则构建了1,176个测试案例数量不同的变体。这种设计使得数据集能够精准捕捉模型输出对提示表述的敏感性差异，为评估模型的语义鲁棒性提供了丰富素材。

使用方法

该数据集适用于代码生成模型的鲁棒性评估研究，使用时需配合提出的三个创新指标：正确性变异度(CV)衡量单个变体与原始提示的性能差异，变异偏差(MB)评估整体变异集的影响强度，最优通过率(Pass@k_b)则反映模型在最佳提示下的潜力表现。研究者应将原始HumanEval基准与变体数据集并行测试，通过控制变量法分析不同变异策略对DeepSeek、CodeLlama等主流模型的影响模式，特别注意描述重述与函数名变异等关键策略产生的性能波动现象。

背景与挑战

背景概述

数据集“12,834 generated prompt variants”由Longtian Wang、Tianlin Li等研究人员于2025年提出，旨在解决代码大型语言模型（CLLMs）在程序合成评估中的鲁棒性问题。该数据集基于HumanEval基准，通过10种突变策略生成12,834个提示变体，模拟现实场景中开发者可能使用的多样化问题描述（如拼写错误、同义替换等）。研究团队来自西安交通大学、南洋理工大学等机构，其核心贡献在于揭示了传统单提示评估与多提示实际场景间的性能差异，为CLLM评估方法的改进提供了实证基础。

当前挑战

该数据集面临两方面的挑战：其一，领域问题层面，传统基准（如HumanEval）依赖单一提示评估CLLMs，无法反映模型对多样化问题描述的适应性，导致评估结果与实际应用存在偏差；其二，构建过程中需平衡突变策略的多样性与语义一致性，例如拼写错误需模拟真实输入习惯，而同义替换需确保语义不变。此外，新提出的Correctness Variability、Mutation Bias等指标需有效量化提示变异对生成代码正确性的影响，这对评估框架的设计提出了较高要求。

常用场景

经典使用场景

在代码生成领域，12,834 generated prompt variants数据集被广泛用于评估代码大语言模型（CLLMs）的鲁棒性和泛化能力。通过模拟真实场景中可能出现的输入变异，如拼写错误、同义词替换和描述改写，该数据集为研究者提供了一个全面的测试平台，以验证模型在不同输入条件下的表现。这种多变的输入环境使得评估结果更加贴近实际应用中的复杂情况。

实际应用

在实际开发场景中，该数据集的应用价值体现在提升代码生成工具的可靠性。开发者经常面临需求描述不明确或存在歧义的情况，数据集通过模拟这些真实挑战，帮助优化CLLMs的输入理解能力。例如，在IDE代码补全、自动化编程辅助等场景中，经过该数据集测试的模型能更好地处理模糊或错误的用户输入，显著提高开发效率。

衍生相关工作

基于该数据集的研究催生了一系列重要工作，包括改进的评估指标Pass@k_b和Mutation Bias，以及新型鲁棒性测试框架。这些衍生工作深入探讨了不同变异策略对模型性能的影响规律，为模型优化提供了方向。例如，后续研究发现了变量名拼写错误可能意外提升模型表现的奇特现象，这一发现启发了新的模型训练方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集