PGT/unbalanced-motifs-50K
收藏Hugging Face2022-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PGT/unbalanced-motifs-50K
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: motif_G13
sequence: float64
- name: motif_G14
sequence: float64
- name: motif_G15
sequence: float64
- name: motif_G16
sequence: float64
- name: motif_G17
sequence: float64
- name: motif_G18
sequence: float64
- name: class_label
sequence: int64
- name: num_nodes
dtype: int64
- name: num_bridges
sequence: float64
- name: num_cycles
sequence: float64
- name: avg_shortest_path_len
sequence: float64
- name: edge_attr
sequence:
sequence: int64
- name: node_feat
sequence:
sequence: int64
- name: edge_index
sequence:
sequence: int64
splits:
- name: train
num_bytes: 88732557
num_examples: 49986
download_size: 10269466
dataset_size: 88732557
---
# Dataset Card for "unbalanced-motifs-50K"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征项:
- 名称: G13型图基序(motif_G13)
序列类型: float64
- 名称: G14型图基序(motif_G14)
序列类型: float64
- 名称: G15型图基序(motif_G15)
序列类型: float64
- 名称: G16型图基序(motif_G16)
序列类型: float64
- 名称: G17型图基序(motif_G17)
序列类型: float64
- 名称: G18型图基序(motif_G18)
序列类型: float64
- 名称: 类别标签(class_label)
序列类型: int64
- 名称: 节点数量(num_nodes)
数据类型: int64
- 名称: 割边数量(num_bridges)
序列类型: float64
- 名称: 环数量(num_cycles)
序列类型: float64
- 名称: 平均最短路径长度(avg_shortest_path_len)
序列类型: float64
- 名称: 边属性(edge_attr)
序列类型:
子序列类型: int64
- 名称: 节点特征(node_feat)
序列类型:
子序列类型: int64
- 名称: 边索引(edge_index)
序列类型:
子序列类型: int64
数据划分:
- 名称: 训练集(train)
字节数: 88732557
样本数量: 49986
下载大小: 10269466
数据集总大小: 88732557
---
# 「不平衡图基序50K(unbalanced-motifs-50K)」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
PGT
原始信息汇总
数据集概述
数据集名称
- 名称:unbalanced-motifs-50K
数据集特征
- motif_G13:序列类型为
float64。 - motif_G14:序列类型为
float64。 - motif_G15:序列类型为
float64。 - motif_G16:序列类型为
float64。 - motif_G17:序列类型为
float64。 - motif_G18:序列类型为
float64。 - class_label:序列类型为
int64。 - num_nodes:数据类型为
int64。 - num_bridges:序列类型为
float64。 - num_cycles:序列类型为
float64。 - avg_shortest_path_len:序列类型为
float64。 - edge_attr:序列类型为
int64。 - node_feat:序列类型为
int64。 - edge_index:序列类型为
int64。
数据集分割
- 训练集:
- 大小:88732557字节
- 示例数量:49986
数据集大小
- 下载大小:10269466字节
- 数据集大小:88732557字节
搜集汇总
数据集介绍

构建方式
该数据集名为PGT/unbalanced-motifs-50K,旨在为图神经网络研究提供结构多样化的图数据。构建过程中,研究者通过系统性地生成包含不同基序(motif)的图结构,重点引入了类别不平衡特性。数据集包含约5万条样本,每条样本以多个基序特征(如motif_G13至motif_G18)为核心,辅以图结构属性,包括节点数、桥边数、环数、平均最短路径长度等。此外,数据以图拓扑的邻接矩阵形式(edge_index)、节点特征(node_feat)和边属性(edge_attr)进行编码,确保能够完整表达图的连接与属性信息。训练集划分包含49,986个样本,为模型训练提供了充足的图数据基础。
特点
该数据集的核心特点在于其突出的类别不平衡性,这与现实世界中许多图结构数据的分布规律高度吻合,例如社交网络中的异常检测或生物网络中的稀有基序识别。数据集中的基序特征(G13至G18)可能代表不同类型的子图结构模式,而类别标签(class_label)则用于区分这些模式。同时,数据集提供了丰富的图级别统计属性,如桥边数、环数和平均最短路径长度,这些指标有助于模型从全局拓扑角度学习图的内在结构。此外,数据集的构建考虑了节点与边的多重属性,使得其能够支持节点级、边级和图级的多层次学习任务。
使用方法
该数据集适用于图分类和结构模式识别任务,尤其适合评估模型在不平衡数据下的泛化能力。使用时,用户可通过加载HuggingFace数据集库直接调用,训练集包含49,986个样本,每条样本包含基序特征、图统计属性和图拓扑信息。模型可基于基序特征(如motif_G13至motif_G18)与图统计特征进行特征融合,或直接利用edge_index、node_feat和edge_attr构建图神经网络。建议在训练过程中采用重采样或代价敏感损失函数以缓解类别不平衡问题,同时利用平均最短路径长度和桥边数等属性增强模型对图结构差异的感知能力。
背景与挑战
背景概述
在图神经网络(GNN)研究领域,图分类任务一直是核心课题之一,其目标是从图结构中提取有效的拓扑特征以区分不同类别的图数据。PGT/unbalanced-motifs-50K数据集由Peng等人于近年创建,旨在探索图数据中结构基序(motif)分布不均衡场景下的分类问题。该数据集包含50,000个合成图样本,每张图均以13至18种基序的丰度为核心特征,同时提供了节点数、桥数、环数、平均最短路径长度等全局图属性,以及边索引和节点特征等底层结构信息。研究人员通过控制基序的出现频率,刻意模拟了真实世界中常见的长尾分布现象,从而为GNN模型在非均衡图结构下的泛化能力评估提供了标准化基准。该数据集的出现填补了图分类领域缺乏专门针对基序不均衡问题的公开基准的空白,对推动图神经网络在生物信息学、社交网络分析等实际应用中的鲁棒性研究具有重要参考价值。
当前挑战
该数据集所解决的核心领域挑战在于图结构数据的类别不均衡问题,即不同基序组合对应的图类别在样本数量上存在显著差异,这导致传统图分类模型容易偏向多数类,而忽略少数类中蕴含的关键拓扑模式。具体而言,多数基序组合的图样本数量可达数千,而少数稀有组合可能仅包含数十例,这种极端不均衡使得模型在训练过程中难以学习到判别性特征,进而影响分类准确率与召回率。在数据集构建过程中,挑战主要体现在合成图生成策略的设计上:需要确保生成的图在保持基序可识别性的同时,能够精确控制各类别的样本比例,并引入足够的噪声以模拟真实数据的复杂性。此外,如何平衡图规模(节点数与边数)的多样性、基序重叠程度以及全局属性的统计分布,以避免引入人为偏差,也是构建过程中的技术难点。最终,该数据集通过提供统一的数据划分与评估协议,为社区研究不均衡图分类问题提供了可靠的实验平台。
常用场景
经典使用场景
在图的表示学习与图分类任务中,PGT/unbalanced-motifs-50K 数据集以其精心设计的非平衡模体结构著称,成为评估图神经网络(GNN)模型对拓扑模式识别能力的经典基准。该数据集包含约五万张图样本,每张图通过预定义的模体特征(如G13至G18)以及图结构属性(如节点数、桥接边数、环数、平均最短路径长度)进行标注,尤其适合用于训练和测试模型在图级分类中对关键子图模式的捕捉能力。其非平衡性设计使得模型必须应对类别分布不均的挑战,从而更真实地反映现实场景中图数据的复杂性。
解决学术问题
该数据集核心解决了图神经网络在非平衡图分类任务中面临的泛化瓶颈问题。传统GNN模型在平衡数据集上表现优异,但在面对真实世界中常见的类别分布不均衡时,容易产生对多数类样本的偏向性学习,导致少数类模体模式的识别准确率显著下降。PGT/unbalanced-motifs-50K 通过系统性地控制模体出现频率与图结构属性,为研究者提供了一个可控的实验平台,用以探索损失函数重加权、采样策略优化、以及图数据增强等技术的有效性。其意义在于推动了图分类领域从理想化平衡假设向现实非平衡场景的理论与实践跨越,为构建更鲁棒的图表示学习算法奠定了数据基础。
衍生相关工作
该数据集衍生了一系列聚焦于图非平衡学习的前沿工作。研究者基于此数据集提出了多种针对图结构的代价敏感学习框架,例如通过图拓扑感知的焦点损失函数来强化对少数类模体的梯度传播。另有工作探索了图数据层面的生成式过采样技术,利用变分自编码器或生成对抗网络合成少数类模体样本,以缓解类别失衡。此外,基于对比学习的图表示方法也在此数据集上得到验证,通过拉近同类模体表示、推远异类模体表示,提升模型对稀有模式的判别力。这些工作共同推动了图非平衡学习领域的方法论创新,并成为后续研究的参照基准。
以上内容由遇见数据集搜集并总结生成



