TabGraphs
收藏arXiv2024-09-22 更新2024-09-27 收录
下载链接:
https://github.com/yandex-research/tabgraphs
下载链接
链接失效反馈官方服务:
资源简介:
TabGraphs是一个包含异构表格节点特征的图数据集基准,由高等经济学院和Yandex研究创建。该数据集包含11个不同的图数据集,涵盖了多种领域和关系类型,旨在评估图神经网络和传统表格模型在处理具有关系信息的表格数据时的性能。数据集的创建过程包括收集和增强现有的表格数据集,通过外部信息构建图结构。TabGraphs的应用领域广泛,旨在解决如何有效利用图结构信息提升表格数据的预测性能问题。
TabGraphs is a benchmark graph dataset with heterogeneous tabular node features, created by researchers from the Higher School of Economics and Yandex Research. This benchmark includes 11 distinct graph datasets covering diverse domains and relationship types, designed to evaluate the performance of graph neural networks and traditional tabular models when handling tabular data with relational information. The development of TabGraphs involves collecting and augmenting existing tabular datasets, and constructing graph structures using external information. With a wide range of application fields, TabGraphs aims to solve the problem of effectively leveraging graph structural information to improve the predictive performance of tabular data.
提供机构:
高等经济学院,Yandex研究
创建时间:
2024-09-22
搜集汇总
数据集介绍

构建方式
TabGraphs数据集通过收集多个表格数据集,并利用外部信息(如用户交互、用户行为相似性、网站流量、道路连接、频繁共同购买等)为每个数据集构建自然图结构。这些图结构基于数据样本之间的关系,而非样本特征本身。数据集涵盖了多种领域,包括社交网络、问答网站、城市评论、在线游戏、产品购买网络、城市道路网络和广告互动等。每个数据集都配备了现实的预测任务,如节点分类或回归,确保了数据集的多样性和实用性。
特点
TabGraphs数据集的主要特点在于其图结构和节点特征的异质性。节点特征通常包含数值和分类特征的混合,这在表格数据中非常常见。此外,数据集中的图结构多样,涵盖了不同的关系类型、图大小、图结构属性和特征分布。这种多样性使得TabGraphs成为一个评估图机器学习模型在处理异质表格节点特征时的有效工具。
使用方法
使用TabGraphs数据集时,研究者和从业者可以评估各种机器学习模型在处理带有表格节点特征的图数据上的性能。数据集支持多种任务,包括节点分类和回归,适用于评估模型的预测能力。通过比较不同模型(如图神经网络、梯度提升决策树和深度学习模型)在TabGraphs上的表现,可以深入理解这些模型在处理异质表格数据时的优缺点。此外,数据集还提供了特征增强和数值特征嵌入等简单模型修改方法的实现,这些方法可以显著提升模型的性能。
背景与挑战
背景概述
TabGraphs数据集由HSE大学和Yandex Research的研究人员于2024年创建,旨在解决图机器学习模型在处理具有异构表格节点特征的数据时的评估问题。该数据集的核心研究问题是评估图神经网络(GNNs)在处理表格数据中的异构特征时的性能,并探讨标准表格模型如何通过简单的特征预处理来利用图数据。TabGraphs的创建填补了现有图机器学习基准数据集中异构节点特征数据的缺失,为研究人员和从业者提供了新的测试平台,特别是在工业和科学领域中,图结构信息可以自然地添加到表格数据中。
当前挑战
TabGraphs数据集面临的挑战主要包括两个方面:一是解决领域问题,即图机器学习模型在处理异构表格节点特征时的性能评估;二是数据集构建过程中遇到的挑战,如缺乏公开的具有异构节点特征的图数据集。此外,现有图机器学习模型通常在具有同质节点特征的数据集上进行评估,这使得将这些模型转移到具有异构特征的表格数据上变得困难。TabGraphs通过提供多样化的图数据集和现实预测任务,旨在解决这些挑战,并推动图机器学习方法在表格数据中的应用。
常用场景
经典使用场景
TabGraphs数据集的经典使用场景在于评估和比较图神经网络(GNN)与传统表格模型在处理具有异构表格节点特征的图数据时的性能。通过提供多样化的图结构和现实世界的预测任务,TabGraphs允许研究者和从业者在不同领域(如社交网络、问答网站、城市道路网络等)中测试和优化模型,从而推动图机器学习方法在表格数据上的应用。
解决学术问题
TabGraphs数据集解决了图机器学习领域中一个关键的学术问题,即如何有效地将图模型应用于具有异构特征的表格数据。传统上,图神经网络主要在具有同质特征的数据集上进行评估,而TabGraphs通过提供具有异构表格节点特征的图数据,填补了这一研究空白。这不仅有助于理解图模型在表格数据上的迁移能力,还为研究者和从业者提供了新的视角和工具,以提升预测性能。
衍生相关工作
TabGraphs数据集的提出催生了一系列相关研究工作,特别是在图神经网络和表格数据结合的领域。例如,研究者们开始探索如何通过简单的特征预处理技术(如邻域特征聚合)来增强传统表格模型的性能,使其能够与图神经网络竞争甚至超越。此外,TabGraphs还激发了对专门处理异构节点特征的图模型的研究,如BGNN和EBBS,尽管这些模型在TabGraphs上的表现并不优于标准模型。这些衍生工作进一步推动了图机器学习在表格数据上的应用和发展。
以上内容由遇见数据集搜集并总结生成



