five

IPC

收藏
arXiv2019-05-16 更新2024-06-21 收录
下载链接:
https://github.com/IBM/IPC-graph-data
下载链接
链接失效反馈
官方服务:
资源简介:
IPC数据集是由国际规划竞赛(IPC)中的AI规划任务构建的,旨在为基于图的机器学习方法提供基准测试。该数据集包括两个版本:接地版和提升版,均包含大小不一且分布偏斜的图,为图核和图神经网络等计算图模型提供了重大挑战。数据集中的图是有向的,提升版是无环的,这为有向(无环)结构的专用模型提供了测试机会。此外,图生成器和标签是通过计算机编程实现的,使得数据集可以轻松扩展以满足更大规模的需求。IPC数据集主要应用于图分类、回归及相关任务,旨在解决图结构数据学习中的效率和准确性问题。

The IPC dataset is constructed from AI planning tasks in the International Planning Competition (IPC), serving as a benchmark for graph-based machine learning approaches. This dataset includes two versions: the grounded version and the lifted version, both containing graphs with varying sizes and skewed distributions, which poses significant challenges to computational graph models such as graph kernels and graph neural networks. All graphs in the dataset are directed, while the lifted version is acyclic, offering a testing ground for specialized models tailored to directed (acyclic) graph structures. Furthermore, the graph generators and labels are implemented via computer programming, allowing the dataset to be easily scaled to meet larger-scale requirements. The IPC dataset is predominantly applied to graph classification, regression and related tasks, with the objective of addressing efficiency and accuracy challenges in graph-structured data learning.
提供机构:
巴塞尔大学 IBM 研究 麻省理工-IBM 沃森人工智能实验室
创建时间:
2019-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
IPC数据集的构建源于国际规划竞赛(IPC)中的人工智能规划任务,这些任务以规划领域定义语言(PDDL)描述。每个规划任务被转化为两种图形表示:基于SAS+基础表示的问题描述图(PDG)和基于提升PDDL表示的抽象结构图(ASG)。PDG通过编码有限域变量、操作符和状态信息构建有向图,而ASG利用抽象结构递归定义,将规划任务中的符号和结构映射为有向无环图。节点特征采用独热编码,根据节点类型自动生成。数据集包含2439个规划任务,并预先划分为训练、验证和测试集,同时提供17个规划器在相同硬件上的运行时间作为标签,未求解的任务时间设为10000秒。
使用方法
IPC数据集适用于图分类、回归及相关任务的基准测试。使用方法示例中,将17个规划器的运行时间二值化为0(≤1800秒)和1(超时),转化为二分类问题。模型对每个规划器输出概率,选择概率最小的规划器,若实际规划时间小于超时限制则视为成功。数据已预分割,可进行领域保持或随机重分割的交叉验证。典型应用包括基于邻接矩阵灰度图的CNN、图卷积网络(GCN)和门控图神经网络(GG-NN),实验表明提升图版本在分类任务中表现更优,且GCN优于其他方法。
背景与挑战
背景概述
图结构数据的学习方法在人工智能领域占据重要地位,而基准数据集是评估图核、图神经网络等模型性能的基石。IPC数据集由Patrick Ferber、Tengfei Ma等研究人员于2019年发布,源自国际规划竞赛中的AI规划任务,旨在为图分类、回归及相关任务提供全新评测基准。该数据集包含grounded和lifted两个独立版本,共2439个有向图,其中lifted版本为有向无环图,节点特征通过独热编码定义。相较于流行的基准数据集,IPC图的规模显著更大且尺寸分布极不均匀,最大节点数达238,909,这为现有图模型的计算能力提出了严峻考验。数据集自动生成,无需人工标注,易于扩展,已在ICML 2019研讨会上展示,对推动图学习领域的发展具有重要意义。
当前挑战
IPC数据集面临的核心挑战体现在两大方面。首先,在解决的领域问题中,图学习模型需处理大规模且尺寸高度偏斜的图结构,例如39%的grounded图和63%的lifted图节点数超过1000,远超常规基准,这挑战了图神经网络的记忆瓶颈和相似性度量能力,因为两个尺寸悬殊的图难以有效比较。其次,在构建过程中,规划任务本身为PSPACE-hard问题,需从PDDL语言描述的复杂AI规划任务中提取图表示,并通过问题描述图和抽象结构图两种方式实现无损编码,同时确保节点特征定义清晰。此外,图生成器虽支持扩展,但需平衡数据集的规模与可复现性,而lifted版本的有向无环特性进一步要求开发专门模型,增加了设计复杂度。
常用场景
经典使用场景
在基于图结构数据的机器学习研究中,IPC数据集因其独特的图构建方式——源自国际规划竞赛(IPC)中的人工智能规划任务——而成为评估图分类与回归模型的经典基准。该数据集包含两种版本:grounded图和lifted图,其中lifted图为有向无环图,节点规模庞大且分布高度偏斜,为图核函数和图神经网络等模型提供了极具挑战性的测试平台。研究者常借助该数据集来验证模型在处理大规模、异质性图结构时的泛化能力与鲁棒性。
解决学术问题
IPC数据集有效解决了图学习领域中缺乏大规模、有向且具有明确标签的基准数据集的问题。它填补了现有基准(如REDDIT、NCI1等)在节点规模、图稀疏性和有向性方面的空白,尤其为有向无环图的专门模型研究提供了稀缺资源。通过该数据集,学术界得以深入探讨图神经网络在大图上的内存瓶颈、邻域聚合的过平滑现象以及图直径对模型层数的影响,推动了图表示学习理论的完善与算法创新。
实际应用
在实际应用中,IPC数据集的核心价值在于辅助自动化规划系统的性能预测与选择。通过将规划任务建模为图结构,并利用图神经网络预测不同规划器在特定任务上的求解成功率,该数据集支持在时间限制下智能选择最优规划器,从而提升规划效率。这一范式可应用于机器人任务规划、自动驾驶决策、物流调度等需要快速求解复杂规划问题的真实场景,显著降低计算资源浪费与时间成本。
数据集最近研究
最新研究方向
在人工智能规划与图结构学习交叉领域,IPC数据集以其独特的图构建方式和规模挑战,正推动图神经网络和核方法向处理大规模、有向且高度稀疏的图结构演进。该数据集源自国际规划竞赛中的AI规划任务,通过有向图(包括无环版本)编码规划问题,其图节点数量分布极不均匀,最大可达数十万节点,远超传统基准数据集。这一特性使得IPC成为验证图模型在极端规模下可扩展性与鲁棒性的重要测试床。当前研究热点聚焦于利用该数据集探索图神经网络在内存瓶颈下的高效训练策略、有向无环图上的专门模型设计,以及结合规划领域知识的图分类与回归任务,为自动化规划与智能决策系统提供更可靠的算法评估平台。
相关研究论文
  • 1
    IPC: A Benchmark Data Set for Learning with Graph-Structured Data巴塞尔大学 IBM 研究 麻省理工-IBM 沃森人工智能实验室 · 2019年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作