five

TUDataset|图数据分析数据集|机器学习数据集

收藏
arXiv2020-07-17 更新2024-07-25 收录
图数据分析
机器学习
下载链接:
https://chrsmrrs.github.io/datasets/
下载链接
链接失效反馈
资源简介:
TUDataset是由多特蒙德工业大学开发的一个包含超过120个不同规模的图数据集的集合,用于图分类和回归任务。这些数据集涵盖了从化学信息学、生物信息学到社交网络分析等多个领域。数据集的创建过程涉及从不同领域收集和标准化图数据。TUDataset的应用领域广泛,旨在通过图神经网络等技术解决图数据分析中的问题,如分子性质预测、社交网络分析等。
提供机构:
多特蒙德工业大学
创建时间:
2020-07-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
TUDataset的构建旨在为图结构数据的监督学习提供标准化的基准数据集。该数据集集合了来自多个应用领域的120多个不同规模的图数据集,涵盖了从化学信息学到社交网络分析的广泛领域。每个数据集均以标准格式提供,并可通过Python接口轻松访问。数据集的构建过程包括从原始数据中提取图结构、节点和边的特征信息,并将其转换为统一的格式,以便于后续的机器学习任务。
特点
TUDataset的特点在于其多样性和广泛的应用范围。数据集涵盖了从小分子化学结构到蛋白质网络、社交网络等多种图结构数据。每个数据集都提供了详细的节点和边标签信息,部分数据集还包含连续的特征属性。此外,TUDataset还提供了标准化的评估工具和基线算法实现,包括图核方法和图神经网络(GNN),使得研究人员能够方便地进行模型比较和性能评估。
使用方法
TUDataset的使用方法非常灵活,研究人员可以通过Python接口加载数据集,并使用提供的基线算法进行实验。数据集支持多种图学习框架,如PyTorch Geometric和DGL。用户可以选择不同的图核方法或GNN架构进行模型训练,并使用标准化的评估工具进行性能评估。此外,TUDataset还提供了详细的文档和示例代码,帮助用户快速上手并进行实验复现。
背景与挑战
背景概述
TUDataset是由Christopher Morris等研究人员于2020年推出的一个图数据集集合,旨在为图结构数据的监督学习提供标准化的基准数据集和评估工具。该数据集涵盖了从化学、生物信息学到社交网络分析等多个领域的120多个数据集,广泛应用于图分类和回归任务。TUDataset的推出填补了图神经网络(GNN)和图核方法在标准化评估方面的空白,极大地推动了图表示学习领域的发展。其数据集格式统一,并提供了Python接口,便于与主流图学习框架(如PyTorch Geometric和DGL)集成。
当前挑战
TUDataset在解决图分类和回归问题时面临的主要挑战包括:1)图数据的异质性,不同领域的图结构差异显著,节点和边的属性类型多样,导致模型泛化能力受限;2)大规模图数据的计算复杂性,尤其是图核方法在处理大规模数据集时,计算Gram矩阵的时间和空间复杂度较高,难以扩展。此外,数据集的构建过程中也面临挑战,如数据来源的多样性导致图模型的标准化难度增加,且部分数据集存在类别不平衡问题,影响模型的训练效果。
常用场景
经典使用场景
TUDataset 是一个广泛用于图结构数据学习的基准数据集集合,涵盖了从化学信息学、生物信息学到社交网络分析等多个领域的120多个数据集。其经典使用场景包括图分类和图回归任务,尤其是在图神经网络(GNN)和图核方法的性能评估中。研究人员可以通过TUDataset提供的标准化数据加载器和评估工具,快速比较不同算法在图结构数据上的表现。
衍生相关工作
TUDataset 的发布催生了许多相关研究工作,尤其是在图神经网络和图核方法的性能优化方面。例如,基于TUDataset 的研究提出了多种改进的图神经网络架构,如GIN(Graph Isomorphism Network)和GAT(Graph Attention Network)。此外,TUDataset 还促进了图核方法的进一步发展,如Weisfeiler-Lehman核和最短路径核的优化。这些衍生工作不仅提升了图结构数据学习的性能,还推动了该领域的理论发展。
数据集最近研究
最新研究方向
近年来,图神经网络(GNNs)和图核方法在图结构数据的监督学习中取得了显著进展。TUDataset作为一个包含120多个跨领域图数据集的基准集合,为图分类和回归任务提供了标准化的评估工具和基线实现。当前的研究方向主要集中在图核与GNNs的性能对比及其在大规模分子回归任务中的应用。尽管GNNs在近年得到了广泛关注,但研究表明,传统的图核方法结合支持向量机(SVM)在图分类任务中仍具有竞争力。此外,TUDataset的引入为图表示学习领域的进一步发展提供了丰富的实验数据,推动了标准化评估流程的建立,促进了不同研究成果之间的可比性。未来的研究将更加关注图核与GNNs在大规模分子回归任务中的表现,尤其是在处理连续节点和边特征时的性能优化。
相关研究论文
  • 1
    TUDataset: A collection of benchmark datasets for learning with graphs多特蒙德工业大学 · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作