TUDataset
收藏arXiv2020-07-17 更新2024-07-25 收录
下载链接:
https://chrsmrrs.github.io/datasets/
下载链接
链接失效反馈官方服务:
资源简介:
TUDataset是由多特蒙德工业大学开发的一个包含超过120个不同规模的图数据集的集合,用于图分类和回归任务。这些数据集涵盖了从化学信息学、生物信息学到社交网络分析等多个领域。数据集的创建过程涉及从不同领域收集和标准化图数据。TUDataset的应用领域广泛,旨在通过图神经网络等技术解决图数据分析中的问题,如分子性质预测、社交网络分析等。
TUDataset is a collection of over 120 graph datasets of varying sizes, developed by the Technical University of Dortmund, and is designed for graph classification and regression tasks. These datasets span multiple domains including cheminformatics, bioinformatics, and social network analysis. The development process of TUDataset entails collecting and standardizing graph data from various domains. Boasting a broad spectrum of application scenarios, TUDataset aims to address challenges in graph data analysis through technologies such as graph neural networks, with typical use cases including molecular property prediction, social network analysis and other relevant tasks.
提供机构:
多特蒙德工业大学
创建时间:
2020-07-17
搜集汇总
数据集介绍

构建方式
TUDataset的构建旨在为图结构数据的监督学习提供标准化的基准数据集。该数据集集合了来自多个应用领域的120多个不同规模的图数据集,涵盖了从化学信息学到社交网络分析的广泛领域。每个数据集均以标准格式提供,并可通过Python接口轻松访问。数据集的构建过程包括从原始数据中提取图结构、节点和边的特征信息,并将其转换为统一的格式,以便于后续的机器学习任务。
特点
TUDataset的特点在于其多样性和广泛的应用范围。数据集涵盖了从小分子化学结构到蛋白质网络、社交网络等多种图结构数据。每个数据集都提供了详细的节点和边标签信息,部分数据集还包含连续的特征属性。此外,TUDataset还提供了标准化的评估工具和基线算法实现,包括图核方法和图神经网络(GNN),使得研究人员能够方便地进行模型比较和性能评估。
使用方法
TUDataset的使用方法非常灵活,研究人员可以通过Python接口加载数据集,并使用提供的基线算法进行实验。数据集支持多种图学习框架,如PyTorch Geometric和DGL。用户可以选择不同的图核方法或GNN架构进行模型训练,并使用标准化的评估工具进行性能评估。此外,TUDataset还提供了详细的文档和示例代码,帮助用户快速上手并进行实验复现。
背景与挑战
背景概述
TUDataset是由Christopher Morris等研究人员于2020年推出的一个图数据集集合,旨在为图结构数据的监督学习提供标准化的基准数据集和评估工具。该数据集涵盖了从化学、生物信息学到社交网络分析等多个领域的120多个数据集,广泛应用于图分类和回归任务。TUDataset的推出填补了图神经网络(GNN)和图核方法在标准化评估方面的空白,极大地推动了图表示学习领域的发展。其数据集格式统一,并提供了Python接口,便于与主流图学习框架(如PyTorch Geometric和DGL)集成。
当前挑战
TUDataset在解决图分类和回归问题时面临的主要挑战包括:1)图数据的异质性,不同领域的图结构差异显著,节点和边的属性类型多样,导致模型泛化能力受限;2)大规模图数据的计算复杂性,尤其是图核方法在处理大规模数据集时,计算Gram矩阵的时间和空间复杂度较高,难以扩展。此外,数据集的构建过程中也面临挑战,如数据来源的多样性导致图模型的标准化难度增加,且部分数据集存在类别不平衡问题,影响模型的训练效果。
常用场景
经典使用场景
TUDataset 是一个广泛用于图结构数据学习的基准数据集集合,涵盖了从化学信息学、生物信息学到社交网络分析等多个领域的120多个数据集。其经典使用场景包括图分类和图回归任务,尤其是在图神经网络(GNN)和图核方法的性能评估中。研究人员可以通过TUDataset提供的标准化数据加载器和评估工具,快速比较不同算法在图结构数据上的表现。
衍生相关工作
TUDataset 的发布催生了许多相关研究工作,尤其是在图神经网络和图核方法的性能优化方面。例如,基于TUDataset 的研究提出了多种改进的图神经网络架构,如GIN(Graph Isomorphism Network)和GAT(Graph Attention Network)。此外,TUDataset 还促进了图核方法的进一步发展,如Weisfeiler-Lehman核和最短路径核的优化。这些衍生工作不仅提升了图结构数据学习的性能,还推动了该领域的理论发展。
数据集最近研究
最新研究方向
近年来,图神经网络(GNNs)和图核方法在图结构数据的监督学习中取得了显著进展。TUDataset作为一个包含120多个跨领域图数据集的基准集合,为图分类和回归任务提供了标准化的评估工具和基线实现。当前的研究方向主要集中在图核与GNNs的性能对比及其在大规模分子回归任务中的应用。尽管GNNs在近年得到了广泛关注,但研究表明,传统的图核方法结合支持向量机(SVM)在图分类任务中仍具有竞争力。此外,TUDataset的引入为图表示学习领域的进一步发展提供了丰富的实验数据,推动了标准化评估流程的建立,促进了不同研究成果之间的可比性。未来的研究将更加关注图核与GNNs在大规模分子回归任务中的表现,尤其是在处理连续节点和边特征时的性能优化。
相关研究论文
- 1TUDataset: A collection of benchmark datasets for learning with graphs多特蒙德工业大学 · 2020年
以上内容由遇见数据集搜集并总结生成



