five

TabGraphs

收藏
github2024-09-27 更新2024-09-28 收录
下载链接:
https://github.com/yandex-research/tabgraphs
下载链接
链接失效反馈
官方服务:
资源简介:
TabGraphs是一个新的基准,包含具有已知图结构的表格数据集。每个数据集包含节点特征、目标、边列表等文件,并提供详细的元数据信息,如数据集名称、预测任务、评估指标等。

TabGraphs is a novel benchmark comprising tabular datasets with known graph structures. Each dataset includes files such as node features, targets, edge lists, and provides detailed metadata including dataset name, prediction task, evaluation metrics, and other relevant information.
创建时间:
2024-09-18
原始信息汇总

TabGraphs: 图数据集及其强基线

数据集概述

数据集下载

  • 数据集可通过 Zenodo记录 下载。
  • 下载的 .zip 文件需放置在 datasets 目录中。
  • 解压数据集 <dataset_name> 的命令为 unzip <dataset_name>

数据集文件结构

  • features.csv:节点特征
  • targets.csv:节点目标
  • edgelist.csv:图中的边列表
  • train_mask.csv, valid_mask.csv, test_mask.csv:数据集分割掩码

数据集信息文件 info.yaml

  • dataset_name:数据集名称
  • task:预测任务
  • metric:评估预测性能的指标
  • num_classes:类别数量(如适用)
  • has_unlabeled_nodes:数据集是否包含未标记节点
  • has_nans_in_num_features:数据集的数值特征中是否包含NaN
  • graph_is_directed:图是否为有向图
  • graph_is_weighted:图是否为加权图(若为真,则 edgelist.csv 包含3列而非2列)
  • target_name:目标名称
  • num_feature_names:数值特征名称列表
  • cat_feature_names:分类特征名称列表
  • bin_feature_names:二进制特征名称列表

许可证

  • TabGraphs 基准数据集以 CC BY 4.0 国际许可证发布。
搜集汇总
数据集介绍
main_image_url
构建方式
TabGraphs数据集的构建方式体现了对图结构与表格节点特征的深度融合。该数据集通过整合多个子文件,如`features.csv`、`targets.csv`和`edgelist.csv`,系统地记录了节点特征、目标值以及图中的边信息。此外,通过`train_mask.csv`、`valid_mask.csv`和`test_mask.csv`文件,数据集实现了训练、验证和测试集的明确划分。`info.yaml`文件则提供了关于数据集的详细元数据,包括任务类型、评估指标、图的属性等,确保了数据集的完整性和可解释性。
特点
TabGraphs数据集的显著特点在于其综合性和灵活性。首先,数据集不仅包含了图结构信息,还融入了丰富的节点特征,涵盖了数值、分类和二元特征,为模型提供了多维度的输入。其次,数据集支持多种预测任务,如分类和回归,适应了不同应用场景的需求。此外,数据集的构建考虑了图的多种属性,如是否为有向图、是否加权等,增强了其在复杂网络分析中的适用性。
使用方法
使用TabGraphs数据集时,用户首先需下载并解压数据集文件,将其放置于`datasets`目录下。随后,通过运行`notebooks/prepare-graph-augmentation.ipynb`和`notebooks/prepare-node-embeddings.ipynb`笔记本,用户可以准备图增强特征和可选的DeepWalk嵌入,以提升预测性能。最后,通过`notebooks/convert-graph-datasets.ipynb`笔记本,将数据集转换为适合`tabular`基线和`bgnn`、`ebbs`模型的格式,并按照相应目录中的指示进行实验。
背景与挑战
背景概述
TabGraphs数据集由一支专注于图学习领域的研究团队创建,旨在为图结构数据中的节点特征学习提供一个标准化的基准。该数据集的构建时间可追溯至2023年,主要研究人员来自多个知名机构,包括Yandex Research等。TabGraphs的核心研究问题是如何在包含表格节点特征的图数据上进行有效的预测任务。这一研究不仅填补了图学习领域中关于表格特征处理的空白,还为后续研究提供了强有力的基线模型和实验平台,极大地推动了该领域的发展。
当前挑战
TabGraphs数据集在构建过程中面临多项挑战。首先,如何有效地整合表格特征与图结构数据,以提升预测性能,是一个复杂的问题。其次,数据集中可能包含未标记节点和数值特征中的缺失值(NaNs),这增加了数据预处理的难度。此外,图数据的方向性和权重特性也需要在模型设计中予以考虑。最后,如何确保数据集的通用性和可扩展性,以便适应不同类型的图学习任务,也是一项重要的挑战。
常用场景
经典使用场景
TabGraphs数据集的经典使用场景主要集中在图神经网络(GNN)与表格节点特征的结合研究中。该数据集通过提供丰富的节点特征、目标标签以及图结构信息,使得研究者能够探索如何在图结构数据中有效利用表格特征进行节点分类或回归任务。具体而言,研究者可以利用TabGraphs数据集来训练和验证各种GNN模型,以评估其在处理具有复杂节点特征的图数据时的性能。
实际应用
在实际应用中,TabGraphs数据集可广泛应用于社交网络分析、生物信息学、推荐系统等领域。例如,在社交网络分析中,该数据集可以帮助识别具有特定特征的用户群体,从而优化社交网络的推荐算法。在生物信息学中,TabGraphs可以用于分析蛋白质相互作用网络,预测蛋白质的功能和相互作用。此外,在推荐系统中,该数据集能够提升用户兴趣预测的准确性,从而提高推荐系统的效率和用户满意度。
衍生相关工作
TabGraphs数据集的发布催生了多项相关研究工作,特别是在图神经网络与表格数据结合的领域。例如,基于TabGraphs的实验结果,研究者们提出了多种改进的GNN模型,以更好地处理具有复杂节点特征的图数据。此外,TabGraphs还激发了在图数据增强和特征工程方面的研究,如利用图增强技术(NFA)和深度游走嵌入(DWE)来进一步提升模型的预测性能。这些衍生工作不仅丰富了图数据分析的理论体系,也为实际应用提供了更多有效的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作