Datasets from the 2018 Russian Facebook Ad Release
收藏github2022-10-29 更新2024-05-31 收录
下载链接:
https://github.com/russian-ad-explorer/russian-ad-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从2018年俄罗斯Facebook广告发布中提取的五个子数据集,包括文本文件、图像、JSON文件、缩略图以及两个CSV文件,用于分析和研究2016年美国总统选举期间的影响力活动。
This dataset comprises five sub-datasets extracted from Facebook advertisements released in Russia in 2018, including text files, images, JSON files, thumbnails, and two CSV files, intended for the analysis and study of influence operations during the 2016 U.S. presidential election.
创建时间:
2018-06-03
原始信息汇总
数据集概述
数据集名称
2018 Russian Facebook Ad Release
数据集来源
由美国众议院情报委员会的民主党人于2018年5月10日发布。
数据集内容
包含以下五个子数据集:
- 从PDF文件中提取的文本文件,使用
pdftotext工具。 - 从PDF文件中提取的图像文件,使用
pdfimages工具提取并使用ImageMagick工具进行裁剪。 - 一个组织了上述数据集部分属性的JSON文件,关于该数据集的创建方式和键的含义的文档即将发布。
- 用于在Russian Ad Explorer上快速加载的缩略图数据集。
- 两个CSV文件,包含对“目标兴趣”和“位置”类别的非正式分类,用于Russian Ad Explorer网络应用。
数据集下载
数据集可通过以下链接下载:
- 原始数据集:https://democrats-intelligence.house.gov/facebook-ads/social-media-advertisements.htm
- Github LFS镜像:https://github.com/russian-ad-explorer/russian-ad-pdfs
- Google Drive镜像:
搜集汇总
数据集介绍

构建方式
该数据集的构建源于2018年美国众议院情报委员会民主党成员发布的3500余条由俄罗斯互联网研究机构(Internet Research Agency)在2015年至2017年间创建的Facebook广告。这些广告被认为旨在影响2016年美国总统大选结果及美国公众的政治观点。数据集通过从PDF文件中提取文本和图像,并结合JSON文件对广告属性进行组织,最终形成了包含文本、图像、JSON元数据、缩略图及CSV分类文件的多维度数据集。
特点
该数据集的特点在于其多维度的数据组织形式,涵盖了广告的文本内容、图像素材、元数据信息以及分类标签。文本数据通过pdftotext工具从PDF中提取,图像则通过pdfimages和ImageMagick工具进行提取和裁剪。JSON文件为广告属性提供了结构化描述,而CSV文件则包含了对广告目标兴趣和地理位置的分类信息。这些特点使得数据集能够支持从文本分析到图像识别的多种研究需求。
使用方法
该数据集的使用方法灵活多样,适用于政治学、传播学及计算机科学等领域的研究。用户可以通过GitHub或Google Drive下载数据集,并利用提供的文本、图像及JSON文件进行广告内容的深度分析。CSV文件中的分类信息可用于广告目标群体的研究,而缩略图则便于在俄罗斯广告探索器(Russian Ad Explorer)等工具中进行快速浏览和可视化分析。
背景与挑战
背景概述
2018年俄罗斯Facebook广告发布数据集源于美国众议院情报委员会民主党成员于2018年5月10日公开的3500多条广告,这些广告由俄罗斯互联网研究机构在2015年至2017年间创建,旨在影响2016年美国总统大选结果及美国民众的政治观点。该数据集由多个子集构成,包括从PDF中提取的文本文件、图像文件、JSON文件、缩略图数据集以及两个CSV文件,涵盖了广告的文本内容、图像信息及目标受众分类等。该数据集的发布为研究政治广告、信息操纵及社交媒体影响力提供了重要的实证基础。
当前挑战
该数据集面临的挑战主要集中在两个方面:首先,在领域问题上,如何从大量广告内容中识别出潜在的政治操纵策略和信息传播模式,尤其是在多语言、多文化背景下,广告内容的语义分析和情感倾向判断具有较高的复杂性。其次,在数据构建过程中,由于广告内容以PDF格式存储,文本和图像的提取与处理面临技术难题,例如PDF文件的解析精度、图像裁剪的质量控制等。此外,数据集的非结构化特性使得后续的分析和建模工作更具挑战性,尤其是在构建自动化分类模型时,如何有效整合文本、图像及元数据信息仍需进一步探索。
常用场景
经典使用场景
在政治传播学和社会网络分析领域,2018年俄罗斯Facebook广告数据集被广泛用于研究社交媒体广告对选举结果的影响。研究者通过分析这些广告的内容、投放策略和目标受众,揭示了外国势力如何利用社交媒体平台干预他国政治进程。这一数据集为理解信息战和网络宣传提供了宝贵的实证材料。
衍生相关工作
基于该数据集,研究者发表了多篇关于社交媒体广告和政治干预的经典论文。例如,一些研究探讨了广告内容的情感倾向与受众反应之间的关系,另一些研究则分析了广告投放的时间、频率和地理分布对选举结果的影响。这些工作为后续研究提供了重要的理论基础和方法论支持。
数据集最近研究
最新研究方向
近年来,随着社交媒体在政治传播中的影响力日益增强,2018年俄罗斯Facebook广告发布数据集成为了研究政治操纵和信息战的重要资源。该数据集包含了2015年至2017年间由俄罗斯互联网研究机构发布的3500多条广告,这些广告被认为旨在影响2016年美国总统大选的结果。研究者们利用该数据集深入分析了广告内容、目标受众以及传播策略,揭示了外国势力如何通过社交媒体平台干预民主进程。此外,该数据集还被用于开发自动化检测工具,以识别和防范未来的政治操纵行为。这些研究不仅加深了我们对信息战的理解,也为政策制定者提供了应对策略的科学依据。
以上内容由遇见数据集搜集并总结生成



