Labeled Datasets for Research on Information Operations
收藏arXiv2024-11-20 更新2024-11-22 收录
下载链接:
https://doi.org/10.5281/zenodo.14141549
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由印第安纳大学社交媒体观察站创建,包含26个经过验证的信息操作(IO)活动数据集,涵盖多个国家和不同时间段。数据集包括超过1300万条帖子,涉及30.3万个账户,旨在提供控制数据以支持IO检测方法的开发。数据集通过提取与IO活动相关的主题标签来收集控制数据,确保了数据集的全面性和上下文丰富性。该数据集主要应用于信息操作的分析和检测,旨在解决社交媒体平台上的虚假信息和操纵问题。
This dataset was created by the Indiana University Social Media Observatory, and includes 26 verified information operation (IO) campaign datasets covering multiple countries and various time periods. It contains over 13 million posts involving 303,000 accounts, aiming to provide controlled data to support the development of IO detection methods. The dataset is collected by extracting hashtags related to IO activities, which ensures its comprehensiveness and contextual richness. It is primarily applied to the analysis and detection of information operations, with the goal of addressing misinformation and manipulation issues on social media platforms.
提供机构:
印第安纳大学社交媒体观察站
创建时间:
2024-11-16
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对26个不同国家信息操作(IO)活动的深入研究。首先,从社交媒体平台公开的透明网站上获取了涉及国家赞助的IO活动数据。随后,通过平台API收集了与这些IO活动相关的控制数据,即在同一时间段内讨论相似话题的合法账户数据。数据集的构建过程中,确保了IO数据与控制数据在时间、话题和互动方式上的高度一致性,从而为后续的对比分析提供了坚实基础。
特点
该数据集的显著特点在于其全面性和多样性。它涵盖了26个不同国家的IO活动,涉及多个政治、社会和经济议题。数据集不仅包括IO账户的详细活动记录,还包含了大量与之相关的控制账户数据,这为研究者提供了丰富的对比资源。此外,数据集采用了匿名化处理,确保用户隐私的同时,保留了账户间的关联性,便于进行深入的网络分析和行为模式研究。
使用方法
研究者可以利用该数据集进行多维度的信息操作分析,包括但不限于叙事分析、网络互动模式研究以及参与策略的评估。通过对比IO账户与控制账户的行为,可以开发和验证新的IO检测算法。数据集的详细字段信息和匿名化处理方式,使得研究者能够在遵守隐私政策的前提下,进行大规模的数据挖掘和机器学习模型的训练。此外,数据集的分段下载功能,也便于研究者在不同研究阶段灵活使用。
背景与挑战
背景概述
随着社交媒体平台成为政治活动和讨论的中心,信息操作(Information Operations, IOs)已成为全球关注的焦点。信息操作定义为有组织地操纵或破坏公众辩论,以达到战略目标。为了应对这一挑战,研究人员和机构开始构建标注数据集,以支持IO检测方法的发展。'Labeled Datasets for Research on Information Operations'数据集由印第安纳大学的社交媒体观察站、威廉与玛丽学院和南加州大学信息科学研究所共同创建,旨在提供关于26个不同国家IO活动的详细数据。该数据集不仅包含经过验证的IO帖子,还包括超过1300万条由30.3万个账户发布的相关控制数据,从而为研究人员提供了丰富的资源,以分析和检测IO活动。
当前挑战
构建'Labeled Datasets for Research on Information Operations'数据集面临多重挑战。首先,获取全面且具有代表性的控制数据是一个难题,因为现有的数据集通常过时、私有或仅限于特定活动。其次,随着Twitter API的关闭,收集新数据变得极其昂贵,限制了数据的更新和扩展。此外,确保数据集的匿名性和隐私保护也是一个重要挑战,因为IO活动涉及敏感信息,如政治观点和种族背景。最后,数据集的构建需要跨多个平台和国家的协调,这增加了数据收集和处理的复杂性。
常用场景
经典使用场景
在信息操作研究领域,Labeled Datasets for Research on Information Operations数据集被广泛用于分析和检测社交媒体上的信息操作(IOs)。该数据集包含了26个经过验证的信息操作活动,以及超过1300万条相关主题的控制数据,这些数据为研究人员提供了丰富的资源,用于开发和基准测试IO检测算法。通过比较协调账户与有机账户的行为,研究人员能够深入研究信息操作的叙事、网络互动和参与策略,从而为识别和应对这些操作提供科学依据。
解决学术问题
该数据集解决了信息操作检测中的关键学术问题,包括缺乏全面的控制数据和检测模型泛化能力不足的问题。通过提供多国、多活动的控制数据,研究人员能够开发出更具普适性的检测模型,从而提高对不同来源、背景和复杂程度的信息操作的识别能力。此外,该数据集还为研究信息操作的叙事策略、网络结构和时间动态提供了宝贵的数据支持,推动了该领域的理论和方法创新。
衍生相关工作
基于Labeled Datasets for Research on Information Operations数据集,研究人员开发了多种检测信息操作的算法和模型,包括无监督和监督学习方法。这些方法通过分析账户的行为模式、内容特征和网络结构,成功识别出大量的协调行为和虚假账户。此外,该数据集还激发了关于信息操作叙事策略、网络动态和参与机制的深入研究,推动了信息操作领域的理论和实践发展。
以上内容由遇见数据集搜集并总结生成



