mbpp-honeypot-impossible-oneoff-sanitized

Name: mbpp-honeypot-impossible-oneoff-sanitized
Creator: FAR AI
Published: 2026-05-12 04:24:32
License: 暂无描述

Hugging Face2026-05-12 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/AlignmentResearch/mbpp-honeypot-impossible-oneoff-sanitized

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于代码相关任务的结构化数据集，重点关注函数测试与断言验证。数据集中每个样本代表一个独立的编程任务，包含任务ID、函数规范（含自然语言描述、函数签名、入口点及文档字符串）、原始断言序列以及经过变异的断言序列。数据集特别标注了被变异的断言索引、原始内容与替换内容，并提供了测试设置代码、测试用例本身及其原始版本。关键字段记录了参考实现（或解决方案）对原始测试和变异测试的通过情况（布尔值），以及可见测试与挑战测试的数量。数据集包含总计395个样本，划分为训练集（113个样本）、测试集（240个样本）和验证集（42个样本）。其结构表明它适用于代码生成质量评估、测试用例生成、程序修复或断言变异分析等研究场景。

This dataset is a structured dataset for code-related tasks, with a focus on function testing and assertion validation. Each sample in the dataset represents an independent programming task, containing a task ID, function specifications (including natural language descriptions, function signatures, entry points, and docstrings), original assertion sequences, and mutated assertion sequences. The dataset specifically annotates the indices of mutated assertions, original content, and replacement content, and provides test setup code, test cases themselves, and their original versions. Key fields record the pass/fail status (boolean values) of the reference implementation (or solution) for original and mutated tests, as well as the counts of visible tests and challenge tests. The dataset contains a total of 395 samples, divided into a training set (113 samples), a test set (240 samples), and a validation set (42 samples). Its structure indicates that it is suitable for research scenarios such as code generation quality evaluation, test case generation, program repair, or assertion mutation analysis.

提供机构：

FAR AI

创建时间：

2026-05-12

搜集汇总

数据集介绍

构建方式

该数据集基于MBPP（Mostly Basic Python Programming）基准测试进行构建，旨在评估代码生成模型对细微逻辑错误的敏感度。通过选取MBPP中的编程问题，对其中的单元测试（assertions）进行精心设计的变异操作，生成所谓的“蜜罐”测试用例，即那些原本正确的代码无法通过，但语义极度接近原始需求的测试。数据集包含113个训练样本、240个测试样本和42个验证样本，每个样本均保留了原始任务描述（spec）、原始断言（assertions_original）以及变异后的断言（assertions_mutated），并标注了变异位置和类型，从而形成对模型鲁棒性的挑战。

使用方法

该数据集主要用于评估和提升代码生成模型的语义鲁棒性。用户可直接加载数据集，通过比较模型生成代码在原始测试与变异测试上的通过率差异，来量化模型对输入扰动的敏感程度。推荐使用Python的datasets库进行加载，调用示例代码将数据划分为训练、验证和测试集。在评估时，应重点关注模型在变异测试上的表现，特别是针对“impossible_type”字段标注的变异类型进行分层分析，以揭示模型在不同逻辑陷阱下的行为模式。

背景与挑战

背景概述

在程序合成与代码生成领域，评估模型对规范理解的忠实度及抵抗对抗性扰动能力的需求日益增长。为此，研究人员构建了mbpp-honeypot-impossible-oneoff-sanitized数据集，该数据集源于MBPP（Mostly Basic Python Programming）基准，由Google等机构的研究者于2021年左右创建，旨在通过精心设计的“蜜罐”测试用例探测代码生成模型的脆弱性。其核心研究问题聚焦于模型是否能在面对语义等价但逻辑上不可能实现的任务时，仍能生成符合原始规范的正确代码，而非被对抗性样本误导。该数据集通过对标准MBPP任务中的断言进行变异，生成无法通过原始函数实现的测试用例，从而评估模型对规范边界的鲁棒性，对代码合成模型的可靠性评估具有重要参考价值。

当前挑战

该数据集应对的核心领域挑战在于代码生成模型对任务规范的理解深度不足，易被表面相似的对抗性输入所欺骗，而无法识别任务中隐含的逻辑矛盾。构建过程中面临的挑战主要包括：一、确保变异后的测试用例严格“不可能实现”，同时保持与原始任务在语法和语义上的高度混淆性，避免引入额外歧义。二、平衡可见测试（公开可用）与挑战测试（隐藏变异）的数量，使得模型无法通过简单记忆或过拟合来规避检测。三、清洗和验证变异断言，防止因人工标注错误导致测试集失效，最终形成包含113个训练样本、240个测试样本及42个验证样本的精选集合，用于严谨评估模型的泛化与推理能力。

常用场景

经典使用场景

在代码生成与程序合成的研究前沿，mbpp-honeypot-impossible-oneoff-sanitized数据集以其精巧的构造，成为了评测大型语言模型推理能力与鲁棒性的经典基准。该数据集以MBPP为基础，通过引入“蜜罐”测试用例——即那些看似合理但实则在语义上不可能通过的挑战性测试，构建了一系列编程任务。研究者利用这一独特设计，重点考察模型能否在生成代码时识别并绕过隐含的逻辑陷阱，而非机械地匹配表面模式。这为深入理解模型在复杂约束下的代码生成行为提供了标准化的试验场。

解决学术问题

该数据集直面当前代码大语言模型评估中的核心痛点：传统测试集难以揭示模型对问题深层语义的理解程度。通过植入经过精心篡改的断言语句，它系统性地衡量模型是否会被似是而非的测试用例所误导，从而暴露出模型在推理一致性上的脆弱性。这一设计有效区分了那些仅依靠记忆语法模板的模型与真正具备初步程序逻辑分析能力的模型。其在学术上的重要意义在于，为构建更稳健的代码智能评估框架提供了关键数据支撑，推动了从单纯的功能正确性评估向更深层次的逻辑鲁棒性评估的范式转换。

实际应用

在实际应用中，该数据集的价值超越了单纯的学术评测，直接服务于软件工程与AI安全领域。开发者可以借助此数据集筛选出在生成单元测试或修复代码缺陷时，对隐含语义矛盾具有高度警觉性的代码生成助手。例如，在自动化测试用例生成场景中，它能帮助规避那些看似通过校验实则存在逻辑漏洞的无效测试。此外，在智能编程助手的鲁棒性测试中，该数据集可作为压力测试工具，确保模型在面对恶意构造或边界条件时仍能输出语义正确的代码，从而提升代码交付的可靠性。

数据集最近研究