malicious-gpt

github2024-06-02 更新2024-06-06 收录

下载链接：

https://github.com/idllresearch/malicious-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集关联于真实世界的恶意大型语言模型应用，包括45个用于生成恶意代码和钓鱼内容的恶意提示，182个独特的真实世界越狱提示，以及用于搜索大型语言模型及相关应用的关键词等。

This dataset is associated with real-world malicious applications of large language models, including 45 malicious prompts for generating malicious code and phishing content, 182 unique real-world jailbreak prompts, and keywords for searching large language models and related applications.

创建时间：

2024-06-01

原始信息汇总

数据集概述

数据集名称

Malla: Demystifying Real-world Large Language Model Integrated Malicious Services

数据集内容

恶意提示数据

介绍: 收集了45个恶意提示，这些提示直接从恶意服务的截图中提取。
格式: 数据包括提示、类型和来源。

越狱提示数据

介绍: 总共确定了182个不同的越狱提示，这些提示被用于三个恶意服务和197个恶意项目。
格式: 每行以JSON格式记录，包括"hosting_platform", "project_name", "prompt_is_visible", "prompt"等键。

恶意提示响应数据

介绍: 收集了由恶意大型语言模型应用程序生成的恶意提示响应数据。
数据规模: 包括1,107对来自9个恶意服务和26,730对来自198个恶意项目的提示响应对。

LLM响应数据

介绍: 收集了33,996个响应，这些响应来自6个LLMs，包括OpenAI GPT-3.5, OpenAI Davinci-002, OpenAI Davinci-003, GPT-J, Luna AI Llama2 Uncensored, 和 Pygmalion-13B。
特别说明: OpenAI已停止使用Davinci-002和Davinci-003模型，但本数据集保留了5,670对恶意提示及其响应，仅供学术研究使用。

搜索关键词数据

介绍: 收集了145个与大型语言模型相关的关键词。

推广关键词数据

介绍: 收集了73个用于推广恶意服务的话题关键词。

数据集目录

数据: 包括恶意提示、越狱提示、恶意提示响应、LLM响应、搜索关键词和推广关键词。
反向工程: 包括作者归属分类和提示泄露检测。
推广和产品: 包括GIF广告和运行截图。
补充材料: 提供额外的补充信息。
引用: 提供数据集的引用信息。
媒体覆盖: 列出相关的媒体报道。

搜集汇总

数据集介绍

构建方式

在构建恶意GPT数据集时，研究团队精心收集了220个恶意大型语言模型应用（如WormGPT、FraudGPT、BLACKHATGPT等）。这些数据集包括了从地下市场、Poe.com和FlowGPT.com等平台获取的恶意LLM应用。通过详细的分类和标记，数据集涵盖了恶意代码生成、钓鱼邮件撰写和钓鱼网站创建等多个方面的恶意行为。此外，数据集还包括了45个恶意提示、207个恶意LLM应用的响应、182个越狱提示以及33,996个由不同LLM生成的提示-响应对，构成了一个全面且多维度的恶意LLM应用数据库。

特点

恶意GPT数据集的显著特点在于其广泛性和深度。该数据集不仅包含了多种类型的恶意LLM应用，还详细记录了这些应用的行为和响应。通过这些数据，研究者可以深入分析恶意LLM的行为模式、生成内容的有效性以及其在不同平台上的表现。此外，数据集还提供了丰富的元数据，如LLM相关的关键词和恶意LLM主题关键词，这些都为后续的研究和分析提供了坚实的基础。

使用方法

使用恶意GPT数据集时，研究者可以通过GitHub页面下载相关数据文件，并根据提供的README文件中的指导进行环境搭建和数据处理。数据集的结构清晰，分为多个子目录，每个子目录对应不同的研究方向，如质量评估、作者归属分类和越狱提示评估等。研究者可以根据自己的需求选择相应的数据集进行分析。此外，数据集还提供了详细的代码示例和执行步骤，帮助研究者快速上手并进行深入研究。

背景与挑战

背景概述

恶意GPT（malicious-gpt）数据集由IDLL Research团队创建，旨在揭示现实世界中集成大型语言模型（LLM）的恶意服务。该数据集的核心研究问题是如何评估和分类这些恶意LLM应用的质量、作者归属及其对‘忽略上述指令’提示泄露攻击的响应。通过收集和分析220个恶意LLM应用（如WormGPT、FraudGPT、BLACKHATGPT等），研究人员旨在提供一个全面的基准，以评估这些恶意服务的潜在威胁。该数据集的创建对网络安全领域具有重要意义，因为它不仅揭示了恶意LLM的广泛存在，还为未来的研究提供了宝贵的数据资源。

当前挑战

恶意GPT数据集面临的挑战主要包括两个方面：一是如何准确评估恶意LLM生成的内容质量，包括代码的合规性、可编译性、有效性及其逃避检测的能力；二是如何进行作者归属分类，以识别不同恶意LLM应用背后的技术架构。此外，数据集在构建过程中还面临数据收集的复杂性和多样性，以及如何处理和分析大量生成的恶意内容的技术难题。这些挑战不仅涉及技术层面的解决方案，还需要跨学科的合作和创新方法的应用。

常用场景

经典使用场景

在人工智能与网络安全交叉领域，恶意GPT数据集被广泛用于评估和检测恶意大型语言模型（LLM）生成的内容质量。该数据集通过收集和分析220个恶意LLM应用（如WormGPT、FraudGPT、BLACKHATGPT等）的生成内容，提供了一个全面的基准，用于评估这些模型在生成恶意代码、钓鱼邮件和钓鱼网站等方面的表现。通过详细的指标分析，如代码格式合规性、编译性、有效性以及邮件格式合规性和可读性，该数据集为研究人员提供了一个强大的工具，以识别和防范这些潜在的网络安全威胁。

解决学术问题

恶意GPT数据集解决了在大型语言模型集成恶意服务方面的关键学术研究问题。通过提供一个包含220个恶意LLM应用的详尽集合，该数据集使研究人员能够深入分析这些模型在生成恶意内容方面的能力，从而推动对这些威胁的识别和防御机制的研究。此外，数据集还支持对“忽略上述指令”提示泄露攻击的评估，进一步增强了其在网络安全研究中的重要性。这些研究不仅有助于提升学术界对恶意LLM的理解，也为实际应用中的安全防护提供了理论基础。

衍生相关工作

恶意GPT数据集的发布催生了一系列相关的经典研究工作。例如，基于该数据集，研究人员开发了多种恶意内容检测算法，显著提升了对恶意LLM生成内容的识别精度。此外，数据集还推动了对恶意LLM背后技术架构的深入研究，揭示了这些模型在生成恶意代码和钓鱼内容方面的潜在漏洞。这些研究不仅丰富了网络安全领域的知识体系，也为未来的技术发展提供了宝贵的参考。通过不断衍生的相关工作，恶意GPT数据集在推动网络安全技术进步方面发挥了重要作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集