Multimodal Attribute Graph Benchmark (MAGB)
收藏arXiv2024-10-11 更新2024-10-16 收录
下载链接:
https://github.com/sktsherlock/ATG
下载链接
链接失效反馈官方服务:
资源简介:
Multimodal Attribute Graph Benchmark (MAGB) 是一个专门为多模态属性图学习设计的综合数据集,由中南大学、微软亚洲研究院等机构创建。该数据集包含五个来自不同领域的多模态属性图,涵盖电子商务网络和社会网络等。数据集的构建过程包括从电子商务和社交媒体平台收集数据,进行数据清洗和预处理,最终形成包含图结构、文本属性和视觉属性的标准化文件。MAGB数据集旨在解决多模态属性图的表示学习问题,为未来的研究提供坚实的基础。
Multimodal Attribute Graph Benchmark (MAGB) is a comprehensive dataset specifically tailored for multimodal attribute graph learning, developed by institutions including Central South University, Microsoft Research Asia, and other relevant organizations. This dataset comprises five multimodal attribute graphs spanning diverse domains, covering e-commerce networks, social networks, and other related fields. The development pipeline of MAGB includes collecting raw data from e-commerce and social media platforms, conducting data cleaning and preprocessing, and ultimately generating standardized files that integrate graph structures, textual attributes, and visual attributes. The MAGB dataset aims to address the representation learning problems of multimodal attribute graphs, providing a robust foundation for future research.
提供机构:
中南大学, 微软亚洲研究院, 香港科技大学, 微软
创建时间:
2024-10-11
搜集汇总
数据集介绍

构建方式
Multimodal Attribute Graph Benchmark (MAGB) 数据集的构建基于从电子商务和社交媒体平台收集的数据。首先,对原始文本和图像信息进行预处理,包括去除缺失值、非英语语句、异常符号以及长度截断等。接着,构建图结构,其中电子商务数据利用产品间的‘also-view’和‘also-buy’关系,而社交媒体数据则通过用户评论关联帖子。最后,对构建的图进行精细化处理,包括去除自环和孤立节点,并为节点分配数值标签以进行节点分类任务。每个数据集包含五种标准化文件,包括图结构、文本属性、视觉属性、文本特征和视觉特征。
特点
MAGB 数据集的主要特点在于其大规模和多领域覆盖,涵盖了从电子商务网络到社交媒体网络的广泛领域。此外,该数据集整合了多模态属性,包括文本和图像,这使得研究者能够探索多模态属性与图拓扑结构的无缝集成。MAGB 还提供了标准化评估程序和基线实验,为多模态属性图表示学习的研究提供了坚实的基础。
使用方法
MAGB 数据集适用于研究多模态属性图表示学习的各种方法,包括基于图神经网络(GNN)和预训练语言模型(PLM)的方法。研究者可以使用该数据集进行节点分类、链接预测等任务的实验。数据集的标准化格式和丰富的特征文件使得研究人员能够轻松进行数据分析和个人实验。此外,MAGB 项目还提供了一个学习平台,持续更新具有实际研究价值的 MAG 数据集,促进该领域的持续发展和合作。
背景与挑战
背景概述
多模态属性图(Multimodal Attributed Graphs, MAGs)在各种现实场景中普遍存在,主要包含两种知识:属性知识和拓扑知识。属性知识由节点(实体)自身的多模态属性支持,如文本和图像;拓扑知识则由节点间的复杂交互提供。MAG表示学习的核心在于无缝整合多模态属性和拓扑结构。近年来,预训练语言/视觉模型(PLMs/PVMs)和图神经网络(GNNs)的发展促进了MAGs的有效学习,吸引了越来越多的研究兴趣。然而,缺乏有意义的基准数据集和标准化的评估程序阻碍了该领域的发展。为此,我们提出了多模态属性图基准(Multimodal Attribute Graph Benchmark, MAGB),这是一个全面且多样化的挑战性基准数据集集合。MAGB数据集规模庞大,涵盖了从电子商务网络到社交网络的广泛领域。除了全新的数据集,我们还通过各种学习范式(从基于GNN和PLM的方法)对MAGB进行了广泛的基准实验,探索整合多模态属性和图拓扑的必要性和可行性。
当前挑战
MAGB数据集的构建和应用面临多重挑战。首先,整合多模态属性和图拓扑结构在技术上具有复杂性,需要创新的方法来有效融合这些异质数据。其次,现有的主流属性图数据集大多是单模态的,缺乏多模态属性信息,限制了研究多模态属性与结构知识整合的可能性。此外,现有数据集通常缺乏标准化格式,不利于研究人员进行系统性比较和分析。最后,设计详细的评估范式以全面比较多模态属性知识和图结构对表示学习的重要性,是当前研究的一个关键挑战。这些挑战需要通过跨学科的合作和创新方法来解决,以推动多模态属性图表示学习领域的发展。
常用场景
经典使用场景
Multimodal Attribute Graph Benchmark (MAGB) 数据集的经典使用场景主要集中在多模态属性图的表示学习领域。该数据集通过整合文本和视觉等多模态属性与图拓扑结构,为研究人员提供了一个全面的基准,用于评估和开发新的图神经网络(GNN)和预训练语言/视觉模型(PLM/PVM)方法。MAGB 数据集特别适用于那些需要同时考虑节点属性和图结构的任务,如社交网络分析、电子商务推荐系统等。
实际应用
在实际应用中,MAGB 数据集可以广泛应用于社交网络分析、电子商务推荐系统、内容推荐等领域。例如,在社交网络中,通过结合用户的文本发布和图片上传等多模态信息,可以更准确地进行用户行为预测和社区发现。在电子商务领域,利用商品的文本描述和图片信息,可以提高推荐系统的准确性和用户满意度。MAGB 数据集为这些应用提供了强有力的数据支持和实验平台。
衍生相关工作
MAGB 数据集的发布催生了一系列相关的经典工作,特别是在多模态属性图的表示学习方法上。例如,基于 MAGB 数据集,研究人员开发了多种结合图神经网络和预训练语言/视觉模型的方法,如 Graph Augmented PLM 和 Visual Augmented PLM。此外,MAGB 还推动了对多模态属性图在不同应用场景下的深入研究,如社交网络中的多模态内容分析和电子商务中的多模态推荐系统。这些工作不仅丰富了多模态属性图的研究内容,也为实际应用提供了新的技术支持。
以上内容由遇见数据集搜集并总结生成



