africa-ai-llm-attacks

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-ai-llm-attacks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成数据集，专门用于模拟和研究针对非洲国家的AI驱动及大型语言模型（LLM）辅助的网络攻击。随着生成式AI的兴起，非洲的网络威胁格局发生了根本性转变，例如AI生成的钓鱼攻击和深度伪造欺诈在非洲出现了指数级增长。本数据集旨在捕捉这一新兴威胁，包含10,000条平衡记录（50%为攻击，50%为正常），每条记录均标记为合成数据。数据集详细建模了非洲各国的特定攻击模式，例如尼日利亚利用AI生成浪漫骗局脚本和商业邮件欺诈，南非利用AI语音克隆进行银行电话诈骗，肯尼亚利用AI生成招聘骗局内容等。攻击类型覆盖广泛，包括AI生成的钓鱼邮件、LLM辅助的商业邮件欺诈、AI语音克隆、深度伪造视频欺诈、AI生成的浪漫骗局、自动化社会工程学、AI生成的恶意软件等。数据集还模拟了攻击者使用的各种AI工具，包括被滥用的主流LLM（如ChatGPT）、暗网专用网络犯罪LLM（如WormGPT、FraudGPT）、语音克隆API和深度伪造生成工具。攻击内容涵盖了多种非洲本地语言，如英语、法语、斯瓦希里语、豪萨语、约鲁巴语、祖鲁语、阿拉伯语、阿姆哈拉语等。数据集的字段非常丰富，包括记录ID、国家、攻击类型、使用的AI工具、目标行业、语言、传递渠道等基础信息，以及一系列二进制特征，用于标识AI生成的内容模态（文本、语音、图像、视频、代码）、攻击自动化程度、个性化程度、是否使用本地语言、文化适应度、是否绕过传统或AI检测、攻击者技能水平、攻击规模、成功率、造成的财务损失、数据窃取情况、是否被检测到等。此外，还从原始字段中提取了复合特征，如AI模态计数、AI能力评分、语言利用评分、规避评分、攻击威胁评分、犯罪民主化风险评分和检测挑战评分等。该数据集适用于表格分类任务，特别是用于训练和评估模型以检测、分类和分析AI赋能的网络攻击，对于网络安全研究、威胁情报分析和防御策略开发具有重要价值。

This dataset is a synthetic dataset specifically designed to simulate and study AI-driven and large language model (LLM)-assisted cyber attacks targeting African countries. With the rise of generative AI, the cyber threat landscape in Africa has undergone a fundamental shift, such as exponential growth in AI-generated phishing attacks and deepfake fraud in Africa. This dataset aims to capture this emerging threat, containing 10,000 balanced records (50% attacks, 50% normal), each labeled as synthetic data. The dataset models specific attack patterns in various African countries in detail, such as Nigeria using AI to generate romance scam scripts and business email fraud, South Africa using AI voice cloning for bank phone scams, and Kenya using AI to generate recruitment scam content. Attack types cover a wide range, including AI-generated phishing emails, LLM-assisted business email fraud, AI voice cloning, deepfake video fraud, AI-generated romance scams, automated social engineering, AI-generated malware, etc. The dataset also simulates various AI tools used by attackers, including abused mainstream LLMs (e.g., ChatGPT), dark web-specific cybercrime LLMs (e.g., WormGPT, FraudGPT), voice cloning APIs, and deepfake generation tools. Attack content covers multiple African local languages, such as English, French, Swahili, Hausa, Yoruba, Zulu, Arabic, Amharic, etc. The dataset has rich fields, including basic information like record ID, country, attack type, AI tools used, target industry, language, delivery channel, etc., as well as a series of binary features to identify AI-generated content modalities (text, voice, image, video, code), attack automation level, personalization level, whether local language is used, cultural adaptation, whether bypassing traditional or AI detection, attacker skill level, attack scale, success rate, financial loss caused, data theft, whether detected, etc. Additionally, composite features are extracted from original fields, such as AI modality count, AI capability score, language utilization score, evasion score, attack threat score, crime democratization risk score, and detection challenge score. This dataset is suitable for tabular classification tasks, particularly for training and evaluating models to detect, classify, and analyze AI-enabled cyber attacks, and is valuable for cybersecurity research, threat intelligence analysis, and defense strategy development.

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

该数据集名为“AI-Powered & LLM-Assisted Attacks (Africa)”，源自Africa Cyber Threat Intelligence系列，由electricsheepafrica构建。数据集采用全合成方式生成，共包含10,000条记录，正负样本均衡分布（50/50）。其构建过程基于真实世界的研究数据与权威安全报告，包括NCSC UK、Microsoft Digital Defense Report、SlashNext及Sumsub等机构的调查成果，从而确保合成样本能够忠实反映非洲地区AI驱动与LLM辅助攻击的实际特征。每一条记录均标记为合成数据（is_synthetic=1），在保留现实威胁模式的同时，实现了对攻击场景的系统建模与规模化覆盖。

特点

该数据集聚焦非洲大陆面临的AI赋能网络威胁，涵盖13种攻击类型，如AI生成的钓鱼邮件、深度伪造视频、语音克隆诈骗及自动化社会工程等。数据特征丰富且维度多元，不仅记录了攻击的技术细节（如AI工具类型、生成内容模态、语言适应性、绕过防御能力），还纳入了攻击的文化本地化指标（如使用斯瓦希里语、豪萨语等非洲本地语言）、攻击者技能门槛下降程度以及暗网AI服务的应用情况。通过衍生特征如AI威胁评分、民主化风险评分与检测挑战评分，该数据集为量化分析非洲地区AI攻击的演变态势提供了精细的评估工具。

使用方法

该数据集以Tabular Classification格式组织，适用于分类与威胁分析任务。用户可通过HuggingFace Datasets库直接加载：from datasets import load_dataset; dataset = load_dataset("electricsheepafrica/africa-ai-llm-attacks")。数据集中包含的二元标签（label）用于区分AI攻击样本与合法行为，同时大量结构化的布尔值与数值型特征（如ai_generates_text、financial_loss_usd）可支撑特征工程、模型训练与异常检测研究。研究人员可以基于攻击类型、AI工具类别、区域标志等字段进行细化分析，亦可利用合成数据对传统检测方法与AI增强检测的效能进行对比评估，探索非洲语境下防御策略的优化路径。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，非洲大陆的网络安全格局正经历前所未有的变革。该数据集由Electric Sheep Africa机构于2026年创建，聚焦于AI驱动与大语言模型（LLM）辅助的网络攻击在非洲地区的具体表现。研究背景植根于SlashNext报告的AI生成钓鱼攻击增长1265%、Sumsub指出的非洲深度伪造欺诈激增700%等严峻现实。数据集模拟了包括尼日利亚、南非、肯尼亚在内的18个非洲国家的攻击模式，涵盖AI生成的钓鱼邮件、语音克隆、深度伪造视频等13种攻击类型，并涉及WormGPT、FraudGPT等暗网工具的使用。作为非洲网络威胁情报系列的一部分，该数据集填补了针对非洲独特语言、文化和社会工程策略的AI攻击数据空白，为防御机制研究提供了关键资源。

当前挑战

该数据集主要应对的领域挑战在于：一是AI技术大幅降低了网络犯罪门槛，使低技能攻击者能利用LLM生成语法完美的本地语言钓鱼内容、实施语音克隆诈骗，传统检测机制在文化适应性和多语言场景下失效；二是非洲组织普遍缺乏AI驱动的检测能力，导致检测缺口扩大，同时攻击呈现多形态、自适应和规模化特征。构建过程中面临的挑战包括：合成数据基于真实研究但难以覆盖所有现实变种；需平衡18个国家的攻击类型、15种非洲语言及文化适应性；需准确建模AI工具的滥用模式，如ChatGPT越狱、暗网LLM服务等；还需整合来自NCSC UK、Microsoft、INTERPOL等多源威胁情报，确保数据真实性与代表性。

常用场景

经典使用场景

非洲大陆正经历一场由生成式人工智能引发的网络威胁范式迁移。该数据集以非洲十八国的真实威胁情报为基石，系统性地建模了人工智能与大语言模型赋能的网络攻击形态。经典使用场景聚焦于对十类攻击类型（如AI生成钓鱼邮件、深度伪造视频欺诈、语音克隆银行欺诈等）的分类检测，以及攻击者技能水平、语言本地化程度、逃避检测能力等特征的多维分析。研究者可基于此数据训练分类器，识别攻击是否由AI驱动，并量化其背后的自动化程度与文化适应性，从而构建面向非洲语境的智能威胁感知基线。

衍生相关工作

该数据集的发布已催生多项衍生工作，包括基于其威胁评分体系构建的非洲网络威胁智能平台，以及聚焦于低资源语言（如阿姆哈拉语、契维语）的LLM安全红队评估框架。研究者进一步利用其语言与文化适应特征，对比分析了主流LLM在不同非洲方言下的钓鱼成功率，揭示了模型在非英语场景下的安全对齐缺陷。此外，数据集中检测困难度评分催生了对多模态深度伪造检测器的改进研究，推动了面向非洲面部多样性的人脸伪造鉴别基准的建立。暗网AI工具关联特征则被用于构建犯罪技术扩散图，预测下一波针对非洲国家的新型LLM攻击变种。

数据集最近研究