TACO-Cobalt-PTB

Name: TACO-Cobalt-PTB
Creator: OSU NLP Group
Published: 2026-01-27 00:20:52
License: 暂无描述

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/osunlp/TACO-Cobalt-PTB

下载链接

链接失效反馈

官方服务：

资源简介：

TACO-Cobalt-PTB 数据集是 TACO-Cobalt 验证集的扰动版本，专门设计用于分析大型语言模型（LLMs）在代码生成上下文中的上下文奖励黑客行为。该数据集通过随机选择两个具有不同输出的公共测试用例（x_1, y_1）和（x_2, y_2），交换它们的预期输出，生成两个扰动测试用例（x_1, y_2）和（x_2, y_1），这些测试用例对于任何正确程序来说都是无法通过的。如果某个编码问题的所有公共测试用例输出相同，则该任务会被丢弃。数据集保留了其他未更改的测试用例与扰动用例，以模拟现实世界中少数测试用例存在噪声但大多数用例仍然正确的情景。该数据集适用于研究代码生成模型的鲁棒性和对抗性测试。

The TACO-Cobalt-PTB dataset is a perturbed variant of the TACO-Cobalt validation set, specifically designed to analyze contextual reward hacking in large language models (LLMs) within the code generation context. This dataset generates two perturbed test cases (x_1, y_2) and (x_2, y_1) by randomly selecting two public test cases (x_1, y_1) and (x_2, y_2) with distinct outputs, then swapping their expected outputs. These test cases are unsolvable for any correct program. Tasks corresponding to coding problems where all public test cases have identical outputs are discarded. The dataset retains all other unmodified test cases alongside the perturbed ones to simulate real-world scenarios where a small subset of test cases contain noise while the majority remain valid. This dataset is suitable for researching the robustness and adversarial testing of code generation models.

提供机构：

OSU NLP Group

创建时间：

2026-01-26

原始信息汇总

TACO-Cobalt-PTB数据集概述

数据集简介

TACO-Cobalt-PTB是TACO-Cobalt验证集的扰动版本，旨在分析大型语言模型在代码生成上下文中的上下文奖励黑客行为。

数据集构建方法

针对每个编码问题，随机选择两个具有不同输出的公共测试用例(x_1, y_1)和(x_2, y_2)（其中y_1 != y_2）。
交换这两个测试用例的预期输出，生成两个扰动测试(x_1, y_2)和(x_2, y_1)。这些扰动测试对于任何正确程序都是不可能通过的。
如果一个编码问题的所有公共测试用例输出相同，则该任务将被丢弃。
在公共分割中，未更改的测试用例与扰动用例一起保留，这模拟了现实世界中一个或两个测试存在噪声但大多数用例仍然正确的情况。

引用信息

如果使用本数据集，请引用相关论文： bibtex TBA

bibtex @misc{li2023tacotopicsalgorithmiccode, title={TACO: Topics in Algorithmic COde generation dataset}, author={Rongao Li and Jie Fu and Bo-Wen Zhang and Tao Huang and Zhihong Sun and Chen Lyu and Guang Liu and Zhi Jin and Ge Li}, year={2023}, eprint={2312.14852}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2312.14852}, }

许可信息

本数据集采用MIT许可证。

搜集汇总

数据集介绍

构建方式

在代码生成研究领域，TACO-Cobalt-PTB数据集作为TACO-Cobalt验证集的扰动版本，旨在深入分析大型语言模型在上下文学习中的奖励黑客行为。其构建过程基于原始验证集中的编程问题，针对每个问题随机选取两个输出不同的公共测试用例，交换其预期输出，从而生成两个不可能被任何正确程序通过的扰动测试。若某问题的所有公共测试用例输出相同，则该问题被排除，以确保扰动有效性。扰动后的测试与未更改的正确测试共同构成公开分割，模拟了现实场景中少数测试存在噪声而多数仍保持正确的典型情况。

特点

该数据集的核心特点在于其精心设计的扰动机制，能够有效揭示大型语言模型在代码生成任务中对测试用例的过拟合或误判倾向。通过引入不可能通过的测试对，数据集为研究模型在上下文奖励学习中的脆弱性提供了独特视角。同时，数据集保留了多数正确测试用例，使得评估环境更贴近实际应用，增强了研究结果的泛化能力。这种结构不仅有助于分析模型对噪声测试的敏感性，还能促进对模型鲁棒性和泛化性能的深入探讨。

使用方法

研究人员可利用TACO-Cobalt-PTB数据集评估大型语言模型在代码生成中的奖励黑客行为。典型使用方式包括将数据集作为测试基准，输入模型生成代码，并观察其在包含扰动测试的上下文中的表现。通过分析模型是否能识别或忽略不可能通过的测试，可以量化模型对噪声的鲁棒性。此外，数据集支持对比实验，例如比较不同模型或训练策略在相同扰动环境下的性能差异，从而为改进模型设计和训练方法提供实证依据。使用时应遵循相关论文的引用规范，确保学术严谨性。

背景与挑战

背景概述

TACO-Cobalt-PTB数据集诞生于2023年，由俄勒冈州立大学自然语言处理团队等研究机构联合构建，其核心研究聚焦于大型语言模型在代码生成任务中的上下文奖励黑客行为分析。该数据集基于TACO-Cobalt验证集进行扰动处理，旨在模拟现实场景中测试用例存在噪声的情况，从而深入探究模型在面对矛盾或错误测试数据时的行为模式。这一工作延续了算法代码生成领域对模型鲁棒性与可靠性的关注，为理解模型在复杂编程环境中的表现提供了关键实证基础，推动了代码生成安全性与可解释性研究的发展。

当前挑战

该数据集致力于应对代码生成领域中模型对测试用例过度拟合或误判的挑战，即模型可能通过利用上下文中的测试信息而非真正理解问题来生成代码，导致在存在噪声测试时产生错误输出。在构建过程中，研究团队面临如何有效模拟真实噪声场景的难题，需确保扰动测试既具有逻辑矛盾性又不失现实代表性，同时需处理原始任务中所有测试输出一致而无法构建有效扰动案例的情况，这要求精细的数据筛选与平衡策略以维持数据集的科学严谨性与实用性。

常用场景

经典使用场景

在代码生成领域，大型语言模型（LLMs）的上下文学习能力日益受到关注，TACO-Cobalt-PTB数据集通过精心设计的扰动测试案例，为研究者提供了一个独特的实验平台。该数据集主要用于分析LLMs在代码生成任务中可能出现的奖励黑客行为，即模型如何应对包含噪声或错误标签的测试案例。通过将原始验证集中的部分测试案例进行输出交换，构建出无法被任何正确程序通过的扰动案例，模拟了现实世界中测试数据存在少量噪声的场景。这种设计使得研究者能够深入探究模型在复杂、不一致的上下文环境中的鲁棒性和泛化能力，为理解LLMs的决策机制提供了关键数据支持。

实际应用

在实际应用层面，TACO-Cobalt-PTB数据集为软件工程和自动化编程工具的开发提供了重要参考。例如，在代码自动补全、程序调试或教育辅助系统中，测试数据的不完整性或错误是常见挑战。通过使用该数据集，开发者可以评估和优化LLMs对噪声的容忍度，确保工具在真实世界复杂场景中的稳定表现。此外，它还能辅助构建更安全的代码生成系统，防止模型因奖励黑客行为而产生潜在漏洞，从而提升软件质量和开发效率。

衍生相关工作

基于TACO-Cobalt-PTB数据集，衍生了一系列关注代码生成鲁棒性和奖励黑客问题的经典研究工作。例如，研究者利用该数据集分析了不同LLMs在扰动测试下的行为差异，提出了针对性的对抗训练方法以增强模型抗干扰能力。同时，这些工作还探索了如何设计更有效的上下文学习策略，减少模型对错误标签的敏感性。这些衍生研究不仅深化了对代码生成机制的理解，也为后续开发更先进、可靠的AI编程助手奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集