TwiBot-20
收藏arXiv2021-08-27 更新2024-06-21 收录
下载链接:
https://github.com/BunsenFeng/TwiBot-20
下载链接
链接失效反馈官方服务:
资源简介:
TwiBot-20是由西安交通大学创建的大规模Twitter机器人检测基准数据集,包含229,573个用户,33,488,192条推文,8,723,736个用户属性项和455,958个关注关系。该数据集通过广度优先搜索从不同主题的大量种子用户开始,遍历关注关系,确保用户在地理位置和兴趣领域上的多样性,更好地代表当前的Twitter环境。TwiBot-20包括三种用户信息模式,支持单用户二元分类和社区感知方法。数据集的应用领域主要集中在Twitter机器人检测,旨在解决在线社交平台上的机器人滥用问题,提高在线讨论的完整性。
TwiBot-20 is a large-scale Twitter bot detection benchmark dataset created by Xi'an Jiaotong University. It contains 229,573 users, 33,488,192 tweets, 8,723,736 user attribute items, and 455,958 follow relationships. This dataset was constructed via breadth-first search starting from a large number of seed users across diverse topics, traversing follow relationships to ensure the diversity of users in terms of geographical locations and interest domains, thus better representing the current Twitter ecosystem. TwiBot-20 includes three types of user information modalities, supporting single-user binary classification and community-aware bot detection approaches. Its application domain mainly focuses on Twitter bot detection, aiming to address the issue of bot abuse on online social platforms and improve the integrity of online discussions.
提供机构:
西安交通大学
创建时间:
2021-06-24
搜集汇总
数据集介绍

构建方式
TwiBot-20数据集的构建始于从不同主题领域的大量种子用户开始,采用广度优先搜索(BFS)策略遍历关注关系。这一过程涵盖了用户在地理和兴趣领域的多样性,使得TwiBot-20更具代表性地反映了当前的Twitter环境。数据集的收集包括从Twitter API检索用户的语义、属性和邻域信息,以及通过众包进行的数据标注,确保了标注的可靠性和准确性。
特点
TwiBot-20数据集的特点在于其规模庞大、用户信息多样性和数据标注的可靠性。它包含了229,573个用户、33,488,192条推文、8,723,736个用户属性项和455,958个关注关系,是目前最大的Twitter机器人检测基准。此外,TwiBot-20是首个公开的包含用户关注关系的机器人检测数据集,为社区感知方法提供了支持。
使用方法
使用TwiBot-20数据集时,首先应从其GitHub仓库下载所需的数据文件,包括训练集、验证集、测试集和支持集。数据文件以JSON格式组织,每个用户都包含用户ID和从Twitter API收集的所有语义、属性和邻域信息。研究人员可以根据需要使用这些数据进行训练、验证和测试机器人检测模型,以及探索半监督学习等新型研究趋势。
背景与挑战
背景概述
在社交媒体时代,Twitter作为重要的社交平台,其上存在大量恶意Twitter机器人,这些机器人对社交网络造成不良影响。为了有效地检测这些机器人,研究人员需要大规模的数据集进行训练和评估。然而,现有的数据集往往存在用户多样性低、用户信息有限和数据稀缺等问题,这限制了机器人检测方法的训练和稳定评估。为了解决这些问题,Feng等人于2020年7月至9月期间收集并标注了TwiBot-20数据集,这是一个包含229,573个用户、33,488,192条推文、8,723,736个用户属性项和455,958个关注关系的Twitter机器人检测基准数据集。TwiBot-20涵盖了多样化的机器人和真实用户,以更好地代表现实世界的Twitter领域。此外,TwiBot-20还包括三种用户信息模式,即语义信息、属性信息和邻居信息,以支持对单个用户的二分类和社区感知方法。据我们所知,TwiBot-20是目前最大的Twitter机器人检测基准数据集。研究人员在TwiBot-20和其他两个公共数据集上重新实现了竞争性的机器人检测方法,并进行了彻底的评估。实验结果表明,现有的机器人检测方法在TwiBot-20上的表现未能达到其先前宣称的性能,这表明Twitter机器人检测仍然是一个具有挑战性的任务,需要进一步的研究努力。
当前挑战
TwiBot-20数据集面临的主要挑战包括:
1) 用户多样性:现有的机器人检测数据集通常只关注特定类型或用户群,无法捕捉到真实Twitter领域中并存的多样化机器人。
2) 有限的用户信息:Twitter用户拥有语义、属性和邻居信息,而现有的基准数据集只包括少量多模态用户信息,缺乏全面性。
3) 数据稀缺:先前的小规模数据集不足以训练和稳定评估新的机器人检测方法,阻碍了新方法的发展。TwiBot-20数据集旨在通过其大规模的用户群体、全面的用户信息和多样化的用户类型来缓解这些问题。然而,机器人检测仍然是一个具有挑战性的任务,需要进一步的研究努力。
常用场景
经典使用场景
TwiBot-20数据集被广泛用于社交媒体机器人检测的研究中,特别是在Twitter平台上。该数据集包含了大量真实用户和机器人的信息,包括语义、属性和邻居信息,为研究者提供了丰富的数据资源,以训练和评估机器人检测算法的性能。TwiBot-20数据集的经典使用场景包括:1. 机器学习模型的训练和评估:研究者可以利用TwiBot-20数据集中的用户信息来训练各种机器学习模型,如随机森林、深度神经网络等,以提高机器人检测的准确性和鲁棒性。2. 特征工程和选择:研究者可以基于TwiBot-20数据集,探索和设计新的特征,以更好地描述用户行为和机器人特征,从而提高机器人检测的性能。3. 社区感知方法的研究:TwiBot-20数据集包含了用户的邻居信息,使得研究者可以采用社区感知方法,如图神经网络等,来分析用户之间的关系,并识别机器人群体。
衍生相关工作
TwiBot-20数据集的提出衍生了一系列相关的经典工作。首先,研究者利用TwiBot-20数据集,探索和设计了新的特征和模型,以提高机器人检测的性能。例如,一些研究者提出了基于深度学习的机器人检测模型,如循环神经网络(RNN)、卷积神经网络(CNN)等,以更好地处理语义和属性信息。其次,研究者利用TwiBot-20数据集,研究了社区感知方法在机器人检测中的应用,如图神经网络(GNN)等,以更好地分析用户之间的关系,并识别机器人群体。最后,研究者利用TwiBot-20数据集,研究了半监督学习和无监督学习在机器人检测中的应用,以提高机器人检测的效率和鲁棒性。
数据集最近研究
最新研究方向
TwiBot-20数据集的研究方向主要集中在社交媒体中Twitter机器人检测的挑战上。该数据集通过收集和标注大量Twitter用户信息,旨在解决现有数据集在用户多样性、用户信息完整性和数据稀缺性方面的不足。TwiBot-20包含了229,573个用户、33,488,192条推文、8,723,736个用户属性项和455,958个关注关系,覆盖了多样化的机器人和真实用户,更好地代表了现实世界的Twitter环境。此外,TwiBot-20还包括三种用户信息模式,支持单用户二元分类和社区感知方法。实验结果表明,现有的机器人检测方法在TwiBot-20上的表现不如之前宣称的性能,这表明Twitter机器人检测仍然是一个具有挑战性的任务,需要进一步的研究努力。
相关研究论文
- 1TwiBot-20: A Comprehensive Twitter Bot Detection Benchmark西安交通大学 · 2021年
以上内容由遇见数据集搜集并总结生成



