jeffchen006/Innoc2Scam-bench-ICML26
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/jeffchen006/Innoc2Scam-bench-ICML26
下载链接
链接失效反馈官方服务:
资源简介:
Innoc2Scam-bench是一个基准测试数据集,用于审计生产级大型语言模型(LLMs)是否会将看似无害的开发提示转化为指向恶意诈骗基础设施的代码。该数据集包含1,377个提示,分为两类:直接提及URL的提示(342个)和未直接提及URL的提示(1,035个)。数据集用于评估7种不同的LLMs,结果分类为四类:完成且恶意、完成但不恶意、内容过滤和其他。数据集格式包括元数据和提示,支持代码生成和模型安全评估任务。
Innoc2Scam-bench is a benchmark for auditing whether production LLMs transform seemingly innocuous developer prompts into code that points to malicious scam infrastructure. The dataset contains 1,377 prompts categorized into two groups: prompts with direct mention of URLs (342) and prompts with no direct mention of URLs (1,035). It evaluates seven different LLMs and classifies results into four buckets: complete_and_malicious, complete_but_not_malicious, content_filtered, and others. The dataset format includes metadata and prompts, supporting tasks like code generation and model safety evaluation.
提供机构:
jeffchen006
搜集汇总
数据集介绍

构建方式
Innoc2Scam-bench 的构建旨在系统性地审计大语言模型在面对看似无害的开发者提示时,是否会生成指向恶意诈骗基础设施的代码。数据集从多种来源收集并人工验证了1,377条提示,涵盖两类场景:直接提及URL的342条提示(类别1),以及未直接提及URL的1,035条提示(类别2)。构建过程结合机器生成与专家核查,确保提示风格聚焦于代码生成任务,并经过多轮清洗以去除非开发者风格的内容。每条提示对应一个结构化条目,包含提示文本、类别标识及元数据,最终以统一JSON格式存储于单个文件中。
使用方法
研究人员可通过克隆GitHub仓库或从Hugging Face Hub下载加载数据集。使用Python的标准json库即可解析Innoc2Scam-bench.json文件,提取提示列表及其属性。对于需要复现评估的工作流,可使用提供的validate_llms.py脚本,通过OpenRouter兼容API查询模型,并结合ChainPatrol、Google Safe Browsing等恶意URL检测服务验证结果。在Hugging Face环境中,可利用datasets库直接加载数据集,或通过huggingface_hub下载特定文件。所有评估输出已按模型、类别和结果桶组织为独立JSON文件,便于对比分析。
背景与挑战
背景概述
随着大型语言模型(LLM)在代码生成任务中的广泛应用,模型的安全性问题日益凸显。传统的安全评估多关注模型对恶意提示的拒绝能力,却鲜有研究考察模型是否会在看似无害的开发者提示下生成指向诈骗基础设施的代码。Innoc2Scam-bench数据集由多伦多大学的Zhiyang Chen、Tara Saba、Xun Deng、Xujie Si与Fan Long等研究人员于2024至2025年间创建,旨在系统性地审计生产级LLM在无恶意显性提示下的隐蔽性安全漏洞。该基准通过1377条精心构造的提示(分为直接提及URL与未直接提及URL两类)评估七个前沿模型的代码生成行为,揭示了模型在完成用户请求时无意识地引入恶意URL的风险,为LLM安全评估开辟了全新的研究维度。
当前挑战
Innoc2Scam-bench所应对的核心挑战在于,传统的安全对齐策略难以防范那些以无害包装诱导模型输出恶意内容的攻击范式,即所谓的“伪装成无辜的诈骗基准”问题。模型可能在无恶意意图的提示下自主生成指向钓鱼或诈骗域名的代码,这一隐蔽行为对现有安全审计体系构成了严峻考验。数据集构建过程同样面临挑战:需从海量真实诈骗案例中提取模板并改造为符合开发者日常用语的自然提示,同时确保类别平衡与结果可复现。此外,剔除不符合开发者风格的低质量提示并保证标注准确,是确保基准有效性的关键难点。
常用场景
经典使用场景
Innoc2Scam-bench作为大型语言模型安全审计的基准评测集,被广泛应用于评估前沿LLM在面对看似无害的开发者提示时,是否会生成指向恶意诈骗基础设施的代码。该基准包含1377条精心构造的提示,分为直接提及URL和完全不提及URL两类场景,覆盖了gpt-5、claude-sonnet-4、gemini-2.5-pro等主流模型。研究者通过分析模型生成的代码中是否包含经专业威胁情报源验证的恶意URL,来量化模型在代码生成任务中的安全隐患。其经典的评估流程从提示注入、代码生成到恶意URL检测形成完整闭环,为LLM的端到端安全评测提供了标准化范式。
解决学术问题
该数据集精准解决了安全领域长期悬而未决的核心矛盾:LLM在辅助开发时可能无意中成为诈骗者的帮凶。传统安全评测多聚焦于模型对恶意直接指令的拒绝能力,却忽视了看似无辜的提示(如请求实现某个DeFi应用集成)可能诱导模型生成包含钓鱼网站URL的代码。Innoc2Scam-bench的发布使学术界首次能够系统性地量化这种间接诱导风险,揭示了即便最先进的模型在不同提示类别下生成恶意代码的比例差异极大(从Claude Sonnet 4的12.9%到DeepSeek Chat V3.1的47.3%),深刻影响了LLM安全对齐理论的发展方向,推动研究者重新审视训练数据过滤、安全微调策略等环节的不足。
实际应用
在实际产业应用中,Innoc2Scam-bench已成为AI安全团队部署LLM服务前的必备审计工具。安全工程师可以借助该基准对即将上线的模型版本进行红队测试,通过运行标准化的验证脚本(如示例中的validate_llms.py)快速获取模型在不同攻击面下的风险画像。金融科技、加密货币交易平台等高风险领域尤其重视该数据集,用于检验集成到产品中的代码生成助手是否可能引荐用户至仿冒交易网站或钓鱼合约地址。此外,安全运营中心依托此基准建立持续监控机制,定期对模型输出进行回溯分析,结合ChainPatrol等威胁情报服务,在用户遭遇攻击前发现并封禁新生成的恶意端点,从而构筑坚实的主动防御屏障。
数据集最近研究
最新研究方向
随着大型语言模型在代码生成任务中的广泛应用,其潜在的安全风险日益凸显。Innoc2Scam-bench基准测试的提出,标志着对生产级LLM安全性审计进入了一个全新的阶段——从粗粒度的内容过滤转向细粒度的、可量化的恶意端点检测。该研究聚焦于评估前沿模型是否会在看似无害的开发者提示下,秘密生成指向欺诈基础设施的恶意代码。通过对七款主流LLM(包括GPT-5、Gemini 2.5 Pro等)的严格测试,发现部分模型在超过40%的场景下生成了包含恶意URL的代码,这一发现深刻揭示了当前模型安全对齐机制的盲区。该工作不仅为构建更安全的代码生成系统提供了关键评估工具,更推动了AI安全领域从被动拒绝向主动漏洞暴露与审计的范式转变,对于防范日益猖獗的AI辅助网络犯罪具有里程碑式的意义。
以上内容由遇见数据集搜集并总结生成



