Binary Classification Social Network Dataset (BiSND)
收藏arXiv2025-03-04 更新2025-03-06 收录
下载链接:
http://arxiv.org/abs/2503.02397v1
下载链接
链接失效反馈官方服务:
资源简介:
Binary Classification Social Network Dataset (BiSND)是中国科学技术大学研究团队创建的一个社交网络数据集,专为图机器学习应用设计,用于预测用户在Twitter上的二元类别。数据集包含12788个节点和430条边,以表格和图形格式提供。该数据集是为了填补社交网络图机器学习中缺乏二元分类数据集的空白。
提供机构:
中国科学技术大学
创建时间:
2025-03-04
搜集汇总
数据集介绍

构建方式
BiSND数据集的构建方式主要分为三个模块:用户提取与标注、数据集创建以及学习和预测。首先,从Twitter平台下载并提取了约129万用户的元数据,并对其进行标注,以确认用户是否存在于Twitter上。其次,根据标注结果,创建了特征矩阵,并将用户数据以表格和图格式呈现。最后,使用多种机器学习和深度学习算法对数据集进行学习和预测,以验证其稳健性。
特点
BiSND数据集具有以下特点:1)真实世界数据:数据来自真实的Twitter用户,具有一定的实际应用价值;2)二元分类:数据集用于预测用户是否存在于Twitter上,属于二元分类问题;3)多种格式:数据集同时提供了表格和图格式,方便不同类型的学习任务;4)多算法验证:数据集已被多种机器学习和深度学习算法验证,表现出良好的稳健性。
使用方法
使用BiSND数据集时,首先需要根据具体任务选择合适的格式(表格或图),然后选择合适的机器学习或深度学习算法进行学习和预测。对于表格数据,可以使用传统的机器学习算法,如决策树、随机森林、XGBoost等;对于图数据,可以使用图神经网络(GNN)或图对比学习(GCL)算法。此外,还可以通过调整算法参数,如树深度、邻居数量等,来优化模型性能。
背景与挑战
背景概述
社交网络在图形应用中拥有广泛的应用范围。然而,现有的基准数据集大多为引用网络、共现网络、电子商务网络等,类别从3到15不等。为了填补这一空白,本文提出了二元分类社交网络数据集(BiSND),旨在为图形机器学习应用预测二元类别。本文以表格和图形格式展示了BiSND,以验证其在经典和先进机器学习中的鲁棒性。我们采用了一系列多样化的分类器,包括四种传统的机器学习算法(决策树、K最近邻、随机森林、XGBoost)、一种深度神经网络(多层感知器)、一种图形神经网络(图卷积网络)和三种最先进的图形对比学习方法(BGRL、GRACE、DAENS)。我们的研究结果表明,BiSND适用于分类任务,F1分数在67.66到70.15之间,为未来的改进提供了有希望的途径。
当前挑战
BiSND数据集面临的挑战包括:1) 解决领域问题,即二元分类;2) 构建过程中的挑战,包括用户提取和注释、数据集创建、学习和预测等方面的挑战。为了验证BiSND的鲁棒性,我们采用了一系列机器学习方法和深度学习方法进行了实验,包括决策树、K最近邻、随机森林、XGBoost、多层感知器、图卷积网络、BGRL、GRACE和DAENS等。实验结果表明,BiSND适用于分类任务,F1分数在67.66到70.15之间。这些结果为未来的研究和改进提供了有希望的途径。
常用场景
经典使用场景
在社交网络分析中,BiSND数据集被广泛应用于用户分类任务,例如识别用户是否活跃或已被删除。此外,BiSND数据集还用于研究社交网络中的信息传播和社区检测问题。通过分析用户之间的连接和互动,研究人员可以更好地理解社交网络的结构和功能。
实际应用
在实际应用中,BiSND数据集可用于社交网络平台上的用户行为分析,例如预测用户是否可能成为垃圾邮件发送者。此外,BiSND数据集还可用于社交网络广告投放和个性化推荐,通过分析用户之间的连接和互动,平台可以更好地理解用户的需求和兴趣,从而提供更精准的广告和推荐内容。
衍生相关工作
BiSND数据集的发布推动了图机器学习领域的研究和发展,衍生出了许多相关工作。例如,研究人员利用BiSND数据集研究了不同机器学习算法在社交网络分类任务中的性能,并提出了新的图神经网络模型和图对比学习方法。此外,BiSND数据集还被用于研究社交网络中的社区检测和信息传播问题,为社交网络平台提供了更多有价值的信息和洞见。
以上内容由遇见数据集搜集并总结生成



