bigcodebench_sandbagging_llama_distillation

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/aisi-whitebox-red-team/bigcodebench_sandbagging_llama_distillation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对话内容、角色信息、任务ID、是否良性、提示文本、完成文本以及由对话和模型生成的完成文本等特征。数据集仅包含训练集split，共有8460个示例。

创建时间：

2025-07-18

原始信息汇总

数据集概述

基本信息

数据集名称: bigcodebench_sandbagging_llama_distillation
下载大小: 13,876,201 字节
数据集大小: 76,718,214 字节
训练集样本数量: 8,460 个

数据结构

特征

chat: 包含对话内容列表
- content: 字符串类型，表示对话内容
- role: 字符串类型，表示对话角色
task_id: 字符串类型，表示任务ID
is_benign: 布尔类型，表示是否为良性样本
prompt: 字符串类型，表示提示文本
completion: 字符串类型，表示完成文本
completion_generated_from_chat: 包含生成对话内容列表
- content: 字符串类型，表示生成对话内容
- role: 字符串类型，表示生成对话角色
completion_generated_from_model: 字符串类型，表示模型生成的完成文本

数据划分

训练集: 包含所有样本，路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与安全评估领域，bigcodebench_sandbagging_llama_distillation数据集的构建采用了多阶段蒸馏策略。该数据集通过捕获模型对话交互中的代码生成行为，系统性地收集了包含任务ID、提示文本、完成代码及对话上下文的复合数据。特别设计了双路径生成机制，同时记录基于聊天历史的完成内容和原始模型直接生成结果，形成8460条训练样本的完整语料库。

使用方法

研究者可通过HuggingFace标准接口加载该数据集，其结构化特征适合进行代码生成模型的对抗性训练研究。train分割中的对话历史可用于构建上下文感知的代码补全系统，而双重生成结果的对比分析有助于开发安全防护机制。任务ID字段支持特定编程问题的定向检索，布尔标注则便于构建分类器检测潜在恶意代码。

背景与挑战

背景概述

BigCodeBench Sandbagging Llama Distillation数据集是近年来代码生成与模型蒸馏交叉领域的重要研究成果，由BigCode研究团队主导构建。该数据集聚焦于大语言模型在代码生成任务中的对抗性行为识别与性能优化问题，通过引入沙袋策略（sandbagging）检测机制和Llama模型蒸馏技术，旨在解决模型在代码补全场景中故意降低性能的隐蔽现象。其创新性地将对话交互数据与代码生成任务相结合，为研究模型行为可解释性和鲁棒性提供了标准化评估基准，对提升AI编程助手的可靠性具有显著意义。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确识别大语言模型在代码生成中刻意生成的次优解，需克服对抗性行为表征模糊与正常错误难以区分的难题；在构建过程层面，对话数据与代码补全结果的精确对齐要求复杂的标注策略，而Llama模型蒸馏时保持生成质量与检测敏感度的平衡亦需精细设计。数据集通过多轮对话上下文与生成结果的交叉验证机制，以及双重标注的监督信号，为这些挑战提供了创新性解决方案框架。

常用场景

经典使用场景

在代码生成与安全研究领域，bigcodebench_sandbagging_llama_distillation数据集为评估大语言模型在对抗性场景下的鲁棒性提供了标准测试平台。其独特的沙袋攻击（sandbagging）数据构造方式，能够模拟模型在遭遇恶意诱导时的响应行为，成为衡量模型代码生成安全性的重要基准。研究者通过分析模型在良性提示与恶意提示下的生成差异，深入探究模型防御机制的有效性。

解决学术问题

该数据集有效解决了大语言模型安全评估中缺乏系统性对抗样本的难题。通过精确标注的恶意提示与对应生成结果，为研究模型在代码生成任务中的脆弱性提供了量化依据。其蒸馏框架下的多模态数据构造，显著提升了学术界对模型安全漏洞的识别精度，推动了可解释性防御策略的发展。

实际应用

在工业界代码审核系统开发中，该数据集被广泛用于训练安全过滤模块。科技企业利用其丰富的对抗样本优化模型的风险检测能力，显著降低了自动生成代码中潜在的安全隐患。教育机构则借助该数据集开发编程安全课程，培养学生识别恶意代码模式的能力。

数据集最近研究