Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB)
收藏arXiv2023-03-13 更新2024-06-21 收录
下载链接:
https://github.com/GraphDetec/MGTAB
下载链接
链接失效反馈官方服务:
资源简介:
MGTAB是一个大规模的专家标注数据集,专门用于Twitter账户的立场检测和机器人检测。该数据集基于超过155万用户和1.3亿条推文构建,包含了10,199个专家标注的用户和7种类型的用户关系,确保了高质量的标注和多样化的关系。MGTAB通过提取20个最具信息增益的用户属性特征和用户推文特征,简化了社交图并构建了一个用户网络。该数据集主要用于解决社交媒体中的虚假信息和机器人操纵问题,支持图基于的账户检测方法的研究和发展。
MGTAB is a large-scale expert-annotated dataset specifically designed for stance detection and bot detection of Twitter accounts. Built upon over 1.55 million users and 130 million Tweets, the dataset comprises 10,199 expert-annotated users and 7 types of user relationships, ensuring high-quality annotations and diverse relational structures. MGTAB extracts the top 20 most information-gaining user attribute features and tweet-based user features to simplify the social graph and construct a user network. This dataset is primarily intended to address misinformation and bot manipulation issues on social media, supporting the research and development of graph-based account detection methods.
提供机构:
战略支援部队信息工程大学河南省图像与智能处理重点实验室
创建时间:
2023-01-03
搜集汇总
数据集介绍

构建方式
MGTAB数据集的构建过程始于对Twitter用户的广泛收集,包括超过1.55百万的用户和1.3亿条推文。研究人员采用广度优先搜索(BFS)策略,以100个种子账户为基础,这些账户在关于日本向海洋排放核废水的辩论中表现出显著的活动。随后,研究人员收集了每个用户的10,000条最新推文,并对数据进行清洗,移除了没有关注者或朋友的用户,以及与目标事件不相关的用户,最终保留了410,199个账户和超过4000万条推文。为了提高标注质量,研究人员邀请了12位在机器人检测和立场检测方面具有丰富经验的专家,对用户的立场和是否为机器人进行标注。每个用户由9位标注者独立标注,并通过多数投票确定最终标签。此外,研究人员还从400,000个未标注的用户中提取了20个用户属性特征,并使用LaBSE模型提取用户推文特征,以构建用户特征表示。
特点
MGTAB数据集的特点包括高质量标注、多样化的用户关系、丰富的用户特征和大规模数据。所有标注均由专家完成,并通过多数投票进行验证,确保了标注的高质量。数据集包含了7种类型的用户关系,包括关注、粉丝、提及、回复、引用、URL共现和标签共现,为基于图的账户检测方法提供了丰富的信息。此外,研究人员从每个用户中提取了20个最有信息增益的用户属性特征和用户推文特征,为账户检测提供了多维度的特征表示。最后,MGTAB数据集包含了超过1.55百万个用户和1.3亿条推文,是目前该领域规模最大的数据集之一。
使用方法
使用MGTAB数据集的方法包括以下步骤:首先,研究人员需要根据数据集的特点选择合适的特征提取和模型训练方法。例如,可以使用LaBSE模型提取用户推文特征,并使用MinMaxScaler方法对数值特征进行归一化处理。其次,研究人员需要根据任务需求选择合适的图神经网络模型,例如GCN、GAT、HGT或S-HGN等。最后,研究人员可以使用训练好的模型在MGTAB数据集上进行测试和评估,以验证模型的有效性和泛化能力。此外,MGTAB数据集还提供了400,000个未标注的用户,可以用于半监督学习研究,进一步扩展账户检测方法的应用范围。
背景与挑战
背景概述
随着社交媒体的广泛使用,用户立场检测和机器人检测成为了重要的研究领域。MGTAB数据集的创建是为了解决现有数据集在标注质量和用户关系完整性方面的不足。该数据集由河南省图像与智能处理重点实验室的研究人员于2023年构建,包含了超过155万用户和1.3亿条推文。MGTAB是首个同时标注用户立场和机器人的图基准数据集,其高质量标注和多样化的用户关系为图基用户检测研究提供了有力支持。
当前挑战
MGTAB数据集面临的挑战包括:1) 低标注质量:现有的用户检测数据集大多采用众包方式进行标注,导致标注结果中存在大量噪声;2) 用户关系不完整:现有的立场检测数据集没有提供用户之间的图结构,而机器人检测数据集中仅有少数提供了图结构,且关系类型有限;3) 用户信息复杂:社交媒体用户信息丰富多样,但并非所有信息都对用户检测有影响。MGTAB数据集通过专家标注和特征提取等方法,有效解决了上述挑战,为图基用户检测研究提供了新的研究方向。
常用场景
经典使用场景
MGTAB数据集是一个多关系图基准,旨在解决社交媒体用户立场检测和机器人检测方法中的问题。该数据集包含了超过1.55亿用户和1.3亿推文,是迄今为止最大的原始数据集之一。MGTAB数据集的特点是专家标注的高质量用户和推文特征,以及7种用户关系,这些关系构成了一个用户级别的社交图,可以应用于最先进的图账户检测方法。MGTAB数据集的发布将促进图账户检测方法的发展,并为研究提供新的方向。
解决学术问题
MGTAB数据集解决了现有账户检测数据集的几个问题。首先,它通过专家标注提高了标注质量,避免了众包标注中可能存在的噪声。其次,MGTAB数据集提供了完整的用户关系图结构,这对于基于图的账户检测方法至关重要。最后,MGTAB数据集提取了20个最有信息增益的用户属性特征,这些特征对于账户检测非常有效。这些改进使得MGTAB数据集成为基于图的账户检测方法的重要基准,并为研究提供了新的方向。
衍生相关工作
MGTAB数据集的发布衍生了许多相关的研究工作。例如,一些研究者使用MGTAB数据集来评估和改进基于图的账户检测方法。此外,一些研究者使用MGTAB数据集来研究多关系图账户检测方法,并探索如何更好地利用用户之间的关系。MGTAB数据集的发布促进了基于图的账户检测方法的发展,并为相关研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



