CIRCLE

Name: CIRCLE
Creator: 新加坡政府科技局
Published: 2025-07-26 00:06:16
License: 暂无描述

arXiv2025-07-26 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/govtech/CIRCLE

下载链接

链接失效反馈

官方服务：

资源简介：

CIRCLE数据集由新加坡政府科技局创建，包含1260个针对CPU、内存和磁盘资源耗尽的测试提示，旨在评估大型语言模型（LLM）的代码解释器安全性。数据集包括直接和间接两种提示变体，以模拟真实的威胁场景。该数据集公开可用，以促进LLM代码解释器安全性的进一步研究。

The CIRCLE Dataset was developed by the Government Technology Agency of Singapore (GovTech). It contains 1,260 test prompts targeting CPU, memory, and disk resource exhaustion, with the primary objective of evaluating the code interpreter security of Large Language Models (LLMs). The dataset includes two prompt variants: direct and indirect, designed to simulate realistic threat scenarios. This dataset is publicly available to facilitate further research into the security of LLM code interpreters.

提供机构：

新加坡政府科技局

创建时间：

2025-07-26

原始信息汇总

数据集概述

基本信息

数据集名称: CIRCLE
许可证: MIT
数据集来源: Hugging Face (govtech)

数据集用途

基准测试用途: 用于评估大型语言模型(LLM)代码解释器的安全性
关联研究论文: "Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security"

相关链接

数据集地址: https://huggingface.co/datasets/govtech/CIRCLE

搜集汇总

数据集介绍

构建方式

CIRCLE基准测试的构建立足于系统资源耗尽的三大风险类别：CPU时间耗尽、内存耗尽和磁盘耗尽。通过精心设计1260个测试提示，其中包括直接恶意提示和间接伪装提示，以全面覆盖不同威胁场景。这些提示由OpenAI的o3-pro模型辅助生成，并经过人工审核，确保其有效性和多样性。测试框架采用自动化流程，将提示发送至配置了代码解释器的LLM，并记录其响应与执行结果，最终由专门的评判LLM进行分类评估。

特点

CIRCLE数据集的核心特点在于其专注于代码解释器特有的系统级安全风险，填补了现有基准测试在资源耗尽漏洞评估上的空白。该数据集不仅包含明确恶意的直接提示，还设计了具有社会工程学特征的间接提示，以模拟真实攻击场景。其六种细粒度结果分类（拒绝、重构、追问、错误代码、完成、超时）能够精确捕捉模型行为的细微差异，为安全评估提供多维度的量化指标。

使用方法

使用CIRCLE基准测试需遵循其两阶段评估流程：首先将测试提示输入目标LLM并记录其代码解释器的响应，包括生成的代码和执行输出；随后通过评判LLM对结果进行标准化分类。研究者在本地或云环境中部署开源评估工具链时，应注意控制执行超时阈值（建议5分钟）以保证结果可比性。该数据集特别适用于对比不同LLM在代码解释器安全防护上的表现，或验证新型防御机制的有效性。

背景与挑战

背景概述

CIRCLE（Code-Interpreter Resilience Check for LLM Exploits）是由新加坡政府科技局的Gabriel Chua等人于2025年提出的基准测试数据集，旨在系统评估大型语言模型（LLMs）集成代码解释器时引发的系统级网络安全风险。随着LLMs日益融合原生代码解释器功能，其执行能力显著增强，但同时也引入了CPU、内存和磁盘资源耗竭等新型威胁。该数据集包含1,260条针对性测试提示，涵盖直接恶意指令和间接社会工程攻击两种变体，通过自动化框架量化模型在代码生成、执行结果及超时行为等方面的安全表现。其创新性在于首次聚焦提供商托管的API原生解释器环境，填补了传统基准测试在资源耗尽型攻击评估上的空白。

当前挑战

CIRCLE面临的挑战主要体现在两个维度：领域问题层面，现有LLM解释器对间接社会工程攻击的防御存在显著漏洞，例如测试显示间接提示的请求满足率高达70.2%，且模型响应存在严重不一致性（如GPT-4.1系列拒绝率仅0.5%-7.1%）；构建过程层面，需克服多供应商API环境差异（如Google的30秒超时策略与OpenAI未公开阈值）、动态执行结果分类的复杂性（需区分6类细粒度行为），以及真实攻击场景模拟中资源约束与伦理风险的平衡。此外，静态测试集的固有局限与高昂的API调用成本（单模型评估费用约30美元）也制约了基准的持续扩展。

常用场景

经典使用场景

CIRCLE数据集专为评估大型语言模型（LLM）中代码解释器的安全漏洞而设计，其经典使用场景包括系统性地测试模型在面对CPU、内存和磁盘资源耗尽攻击时的防御能力。通过精心设计的直接和间接提示，该数据集能够模拟真实世界中的恶意攻击场景，为研究者和开发者提供一个标准化的评估框架。

衍生相关工作

CIRCLE数据集的发布推动了多项相关研究的发展，包括针对代码解释器的动态防御机制设计、基于强化学习的模型安全训练框架，以及多模态提示攻击的检测方法。这些工作进一步扩展了CIRCLE的应用范围，并为LLM安全领域的标准化评估提供了重要参考。

数据集最近研究