africa-election-disinfo

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-election-disinfo

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为“选举虚假信息与政治网络行动（非洲）”，是“非洲网络威胁情报”系列的一部分。它是一个合成数据集，包含10,000条平衡记录（正负样本各50%），所有记录均为基于真实世界研究数据生成的合成数据（is_synthetic=1）。数据集旨在模拟2023年至2025年间非洲大陆的选举虚假信息与政治网络行动。在此期间，有18个非洲国家举行重大选举，使该大陆成为信息战的主要舞台。数据内容捕捉了非洲特定的模式，包括尼日利亚2023年总统选举期间的大规模虚假信息、南非2024年的数字操纵活动、肯尼亚遗留的剑桥分析公司影响网络、埃塞俄比亚的提格雷冲突虚假信息、萨赫勒地区（马里、布基纳法索、尼日尔）与俄罗斯有关的影响力行动，以及刚果（金）2023年选举中的外国干预等。数据集定义了12种具体的操作类型，如假新闻制造、协同不真实行为、深度伪造政治内容、选民压制运动、话题标签操纵等。数据特征丰富，包含39个字段，涵盖操作的基本信息（如国家、平台、内容类型、目标、参与者类型）、行为指标（如涉及账户数、生成帖子数、估计覆盖范围、参与度计数、是否使用机器人/AI内容/虚假账户/VPN等）、时间特征（如竞选持续时间、距选举日天数）、目标特征（如是否针对特定地区或族群）、影响指标（如是否引发暴力、是否影响选举结果、是否侵蚀公众信任）以及响应指标（如是否被事实核查、平台是否采取行动、政府或公民社会是否回应）等。此外，还从原始特征中提取了一系列衍生特征，用于评估操作的规模、技术复杂度、时机、目标风险、外国参与度、影响严重性和响应有效性等。数据集基于多项权威的实时研究报告构建，适用于表格分类任务，主要用于网络安全、虚假信息检测、政治网络行动分析、选举安全研究和非洲区域研究等领域。

This dataset is named Election Disinformation and Political Cyber Operations (Africa) and is part of the Africa Cyber Threat Intelligence series. It is a synthetic dataset containing 10,000 balanced records (50% positive and 50% negative samples), with all records being synthetic data generated based on real-world research data (is_synthetic=1). The dataset aims to simulate election disinformation and political cyber operations on the African continent between 2023 and 2025. During this period, 18 African countries held major elections, making the continent a key stage for information warfare. The data captures Africa-specific patterns, including large-scale disinformation during Nigerias 2023 presidential election, digital manipulation activities in South Africa in 2024, the legacy influence network of Cambridge Analytica in Kenya, disinformation related to the Tigray conflict in Ethiopia, influence operations linked to Russia in the Sahel region (Mali, Burkina Faso, Niger), and foreign interference in the Democratic Republic of Congos 2023 elections, among others. The dataset defines 12 specific operation types, such as fake news creation, coordinated inauthentic behavior, deepfake political content, voter suppression campaigns, and hashtag manipulation. It features rich data with 39 fields, covering basic information about operations (e.g., country, platform, content type, target, actor type), behavioral indicators (e.g., number of accounts involved, posts generated, estimated reach, engagement counts, use of bots/AI content/fake accounts/VPNs), temporal features (e.g., campaign duration, days to election), target characteristics (e.g., whether targeting specific regions or ethnic groups), impact indicators (e.g., whether violence was triggered, election outcomes affected, public trust eroded), and response indicators (e.g., fact-checking status, platform actions taken, government or civil society responses). Additionally, a series of derived features are extracted from the original features to assess the scale, technical complexity, timing, target risk, foreign involvement, impact severity, and response effectiveness of operations. The dataset is built on multiple authoritative real-time research reports and is suitable for tabular classification tasks, primarily used in fields such as cybersecurity, disinformation detection, political cyber operation analysis, election security research, and African regional studies.

创建时间：

2026-05-13

原始信息汇总

数据集概述：非洲选举虚假信息与政治网络行动

该数据集聚焦非洲大陆的选举虚假信息和政治网络行动，由 electricsheepafrica 提供，是“非洲网络威胁情报”系列的一部分。所有数据均为合成数据（is_synthetic=1），但基于真实世界的研究数据生成。

基本信息

数据集名称：Election Disinformation & Political Cyber Operations (Africa)
语言：英语
许可证：MIT
任务类型：表格分类
数据规模：10,000 行，正负样本平衡（50/50）
数据来源：合成数据

背景与覆盖范围

数据集反映了2023-2025年非洲众多国家（18个）举行大选期间的信息战格局。其中涵盖了多个关键国家及特定模式，包括：

尼日利亚 2023：总统选举期间大量虚假信息及AI生成候选人音频。
南非 2024：各党派间的数字操控活动。
肯尼亚：受Cambridge Analytica影响遗留的付费网红虚假信息网络。
埃塞俄比亚：提格雷冲突中的虚假信息和种族仇恨言论放大。
萨赫勒地区（马里、布基纳法索、尼日尔）：与俄罗斯有关的支持军政府的行动。
刚果民主共和国 2023：外部干预选举及结果操纵指控。
主要平台：Facebook/WhatsApp 是主要传播渠道，TikTok 正在迅速崛起。

操作类型

数据集包含12种操作类型，具体如下：

类型	描述
`fake_news_fabrication`	编造关于候选人或事件的虚假新闻故事
`coordinated_inauthentic_behavior`	虚假账号网络协同行动
`deepfake_political_content`	AI生成的政治音频/视频
`voter_suppression_campaign`	抑制特定选民群体的投票意愿
`hashtag_manipulation`	人为炒作政治话题标签
`bot_network_amplification`	机器人驱动的叙事放大
`influencer_for_hire`	付费网红传播政治内容
`hate_speech_incitement`	基于种族或宗教的仇恨言论运动
`foreign_influence_operation`	国家支持的境外干预
`election_result_manipulation_claim`	关于选举舞弊的虚假指控
`candidate_impersonation`	冒充政治候选人
`poll_manipulation`	利用虚假民调影响选民认知

特征说明

数据集包含39个原始特征和多个提取特征，主要分为以下几类：

基础信息：record_id、country、operation_type、platform、content_type、target、actor_type、language、funding_source。
行动规模：accounts_involved、posts_generated、estimated_reach、engagement_count、campaign_duration_days。
技术手段：uses_bots、uses_ai_content、uses_fake_accounts、uses_vpn_proxy、cross_platform_coordination、paid_promotion。
时间与目标：election_period、days_to_election、targets_specific_region、targets_ethnic_group、incites_violence。
外部关联：foreign_state_linked、foreign_country_origin、mainstream_media_pickup、protest_triggered、violence_triggered、election_outcome_affected、public_trust_eroded。
响应措施：fact_checked、platform_action_taken、accounts_removed、government_response、civil_society_response。
标签：label（1=虚假信息，0=合法信息）、is_synthetic（均为1）。

提取特征包括：

规模指标：large_account_network、viral_reach、high_engagement。
技术复杂度：tech_sophistication_score、automated_campaign、ai_enhanced。
时间标记：pre_election、election_day、close_to_election。
风险与影响：ethnic_targeting、violence_incitement、foreign_operation、impact_score、high_impact。
响应效果：response_score、platform_enforcement、no_accountability。
类别编码：操作类型、平台类型、行动者类型、目标类型、区域标志（如is_west_africa）。
综合评分：disinfo_threat_score、societal_harm_score、resilience_score。

情报来源

数据集引用了以下真实世界情报源来生成合成攻击样本：

DFRLab / Atlantic Council — 非洲选举虚假信息追踪
Meta 对抗性威胁报告（2023-2025）
牛津互联网研究所 — 计算宣传项目
EU DisinfoLab — 非洲调查
INTERPOL 非洲网络威胁评估（2025）

使用示例

python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-election-disinfo")

搜集汇总

数据集介绍

构建方式

该数据集源自非洲网络安全威胁情报项目，由Electric Sheep Africa基于真实世界研究数据合成构建。数据集通过整合非洲战略研究中心、大西洋理事会数字取证研究实验室、Meta对抗性威胁报告等多源权威情报，提炼出非洲大陆选举虚假信息与政治网络行动的结构化特征。构建过程严格遵循学术研究方法，将2023至2025年间非洲18个国家的选举虚假信息事件，包括尼日利亚2023年总统选举中的AI生成音频、南非2024年的政党间数字操纵、埃塞俄比亚提格雷冲突中的仇恨言论放大等典型模式，抽象为包含36个字段的标准化表格数据。数据集共包含10,000条记录，正负样本均衡各占50%，所有记录均标注为合成数据，确保敏感信息的去敏化与研究的可重复性。

特点

该数据集的核心特色在于其结构化分析与多维度安全特征工程的紧密结合。数据集不仅涵盖了虚假新闻制造、协调不实行为、深度伪造、选民压制、机器人网络放大等12种操作类型，还针对非洲特有的信息传播环境，引入了社交媒体主导（Facebook/WhatsApp为主）与新兴平台（TikTok）的影响特征。更为突出的是，数据集包含了丰富的提取特征体系，如技术复杂度评分、影响力评估分数、社会危害评分与机构韧性评分，以及针对各类操作类型、平台类型、行为主体类型的one-hot编码。此外，还设计了涉及目标群体针对性、选举时间窗口、外国干预程度、暴力煽动风险等多维度的安全分析指标，为虚假信息检测与态势感知提供了精细化的分析基础。

使用方法

该数据集可直接通过HuggingFace的datasets库加载使用，命令为from datasets import load_dataset; dataset = load_dataset('electricsheepafrica/africa-election-disinfo')。数据采用表格分类格式，每条记录包含record_id唯一标识符与label分类标签（0表示合法信息，1表示虚假信息）。研究者可直接利用预定义的丰富特征进行分类模型训练，如利用disinfo_threat_score复合威胁评分进行风险评估，或利用societal_harm_score复合社会危害评分进行影响分析。数据集的平衡设计与详尽特征集使其特别适合用于多分类、异常检测与归因分析等任务。同时，依据MIT开源协议授权，可用于学术研究与商业应用。使用时建议参考数据集引用的情报源文献，以确保结果的可解释性与领域合理性。

背景与挑战

背景概述

该数据集由研究机构Electric Sheep Africa于2026年创建，聚焦于非洲大陆选举期间虚假信息与政治网络行动的建模与分析。随着2023至2025年间非洲18个国家相继举行重要选举，该地区已成为信息战的关键战场。非洲战略研究中心的数据显示，仅2023至2024年间就记录了超过60起针对非洲选举的协同虚假信息行动。该数据集系统捕捉了尼日利亚2023年总统选举中AI生成音频、南非2024年数字操控运动、肯尼亚的剑桥分析遗产影响、埃塞俄比亚提格雷冲突中的虚假信息，以及萨赫勒地区与俄罗斯相关的干预行动等典型模式，为理解非洲政治信息生态提供了重要数据基础。

当前挑战

本数据集面临的挑战包含两个层面。在领域问题层面，非洲选举虚假信息具有平台多样性（以Facebook和WhatsApp为主，TikTok快速崛起）、语言多元性及跨境干预复杂性等特征，传统检测方法难以有效应对深度伪造、协同不实行为及外国干预等新型操作。在构建层面，由于真实标注数据的稀缺性和敏感政治环境的限制，团队不得不基于研究文献、威胁报告及学术分析等真实世界数据生成合成样本，这要求确保合成数据在操作类型、目标群体及影响指标等维度上均衡且具有代表性。此外，跨18个国家的数据采集中，各国政治背景、语言差异及平台规则的不同也增加了数据标准化与特征工程的难度。

常用场景

经典使用场景

非洲选举虚假信息与政治网络行动数据集（africa-election-disinfo）的核心应用场景聚焦于构建和评估检测选举操纵行为的机器学习模型。研究者和数据科学家借助该数据集中的操作类型、平台特征、行动者类别及影响力指标等多维标注特征，训练分类器以区分真实信息与协调性虚假宣传。典型任务包括对伪造新闻、深度伪造政治内容、机器人网络放大及外国干预等11种操作类型的多标签分类，同时可结合国家、选举周期与目标受众等上下文信息，实现区域化虚假信息威胁的精准建模。该数据集平衡的正负样本设计（50/50）与涵盖18个非洲国家选举周期的合成数据，为模型在低资源高风险场景下的鲁棒性验证提供了基准测试平台。

实际应用

在实际应用层面，该数据集为多利益相关方提供了可操作的威胁防御工具。非洲选举委员会可依据操作类型与区域标签提前部署社群媒体监测能力，例如针对WhatsApp闭环传播的伪造新闻或TikTok快速浮现的深度伪造内容实施主动标记。网络内容审核平台（如Meta、X）能利用其中的协调性非真实行为特征（如VPN代理套件使用、跨平台账户网络拓扑）优化自动化检测规则，降低对抗性规避策略的逃逸率。国际组织（如非洲联盟、INTERPOL）可结合campaign_duration_days、estimated_reach等量化指标评估干预措施的时效性，生成区域态势报告以指导政策制定。新闻事实核查机构更能通过fact_checked与platform_action_taken字段追溯虚假信息的传播闭环，提升辟谣效率与媒体素养教育的针对性。

衍生相关工作

该数据集催生了多个前沿研究方向与衍生工作。在深度伪造检测领域，研究者基于其AI内容标记与操作类型对应关系，开发了针对非洲语种（如斯瓦希里语、豪萨语）的低资源音频-视觉伪造鉴别框架。在影响力网络分析方面，衍生工作利用accounts_involved与cross_platform_coordination特征，构建了基于图神经网络的虚构账户群体检测模型，显著提升了对尼日利亚、肯尼亚等地网红雇佣行动（influencer_for_hire）的识别精度。此外，disinfo_threat_score与社会危害评分的引入，推动了选举安全量化指标体系的发展，已被用于设计动态风险预警仪表盘。部分研究更将其作为对抗学习基准，探索生成式虚假信息对抗本（如政治人物语音克隆）的自动防御策略，形成了虚假信息攻防博弈的标准化评估生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集