graphs-datasets/PROTEINS

Name: graphs-datasets/PROTEINS
Creator: graphs-datasets
Published: 2023-02-07 16:39:11
License: 暂无描述

Hugging Face2023-02-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/graphs-datasets/PROTEINS

下载链接

链接失效反馈

官方服务：

资源简介：

`PROTEINS`数据集是一个中等规模的分子属性预测数据集，主要用于预测分子是否为酶的二元分类任务。数据集包含1113个图，平均每个图有39.06个节点和72.82条边。每个图的数据字段包括节点特征、边索引、边属性和标签。数据集的结构和属性信息可以通过PyGeometric库加载和使用。

The `PROTEINS` dataset is a medium-scale molecular property prediction dataset, primarily used for binary classification tasks whose objective is to predict whether a molecule is an enzyme. The dataset contains 1113 graph structures, with an average of 39.06 nodes and 72.82 edges per graph. Each graph's data fields include node features, edge indices, edge attributes, and labels. The structural and attribute information of the dataset can be loaded and utilized via the PyGeometric library.

提供机构：

graphs-datasets

原始信息汇总

数据集概述：PROTEINS

数据集描述

数据集总结

类型: 中等分子属性预测数据集
用途: 预测分子是否为酶，属于二分类任务
评估指标: 准确率，使用10折交叉验证

支持的任务和排行榜

任务: 分子属性预测
排行榜: Papers with code leaderboard

数据集结构

数据属性

规模: 中等
图数量: 1113
平均节点数: 39.06
平均边数: 72.82

数据字段

node_feat (列表: #nodes x #node-features): 节点特征
edge_index (列表: 2 x #edges): 边索引
edge_attr (列表: #edges x #edge-features): 边特征
y (列表: 1 x #labels): 标签
num_nodes (整数): 节点数量

数据分割

来源: PyGeometric版本，由TUDataset提供

附加信息

许可信息

许可状态: 未知

引用信息

@article{10.1093/bioinformatics/bti1007, author = {Borgwardt, Karsten M. and Ong, Cheng Soon and Schönauer, Stefan and Vishwanathan, S. V. N. and Smola, Alex J. and Kriegel, Hans-Peter}, title = "{Protein function prediction via graph kernels}", journal = {Bioinformatics}, volume = {21}, number = {suppl_1}, pages = {i47-i56}, year = {2005}, month = {06}, issn = {1367-4803}, doi = {10.1093/bioinformatics/bti1007}, url = {https://doi.org/10.1093/bioinformatics/bti1007}, eprint = {https://academic.oup.com/bioinformatics/article-pdf/21/suppl_1/i47/524364/bti1007.pdf}, }

贡献者

贡献者: @clefourrier

搜集汇总

数据集介绍

构建方式

在生物信息学领域，蛋白质功能预测是理解生命活动机制的关键环节。PROTEINS数据集的构建源于对蛋白质分子进行系统化表征的需求，其原始数据来源于公开的分子数据库，通过提取蛋白质的序列与结构信息，将每个蛋白质转化为图结构表示。图中节点对应氨基酸残基，边则表征残基间的空间邻近关系，并整合了化学属性作为节点与边的特征。该数据集共包含1113个图样本，每个样本平均具有39.06个节点与72.82条边，经过人工标注为酶或非酶两类，形成标准的二元分类任务。

特点

PROTEINS数据集作为中等规模的分子性质预测基准，其核心特点在于以图结构形式编码蛋白质的复杂生物信息。每个图样本不仅包含拓扑连接关系，还融合了多维节点特征与边特征，能够同时反映蛋白质的序列、结构及化学性质。数据集的规模适中，图结构相对稠密，平均边数约为节点数的两倍，这为图神经网络模型提供了丰富的局部与全局信息。此外，该数据集作为经典基准，在学术研究中被广泛用于评估图分类算法的性能，其十折交叉验证的评估框架确保了结果的可比性与稳健性。

使用方法

该数据集主要用于分子性质预测，具体任务为判断蛋白质是否属于酶类。研究人员可通过Hugging Face的`datasets`库直接加载，并利用PyTorch Geometric框架转换为图数据对象进行后续处理。典型的使用流程包括加载数据集、构建图数据列表、并封装为DataLoader以支持批量训练。模型训练通常采用十折交叉验证来评估分类准确率，确保评估的统计显著性。数据集中每个样本均提供节点特征、边索引、边属性及标签，便于直接输入图卷积网络等模型进行端到端的学习与预测。

背景与挑战

背景概述

在生物信息学领域，蛋白质功能预测一直是核心研究议题之一。PROTEINS数据集由Karsten M. Borgwardt等研究人员于2005年创建，旨在通过图核方法解决酶与非酶的分类问题。该数据集将蛋白质的序列、结构和化学信息整合为图模型，推动了图机器学习在生物分子属性预测中的应用，对后续的图分类研究产生了深远影响。

当前挑战

PROTEINS数据集所针对的蛋白质功能预测任务，面临着生物分子结构复杂性与功能多样性带来的挑战，要求模型能够有效捕捉图结构中的高阶拓扑特征与节点属性。在构建过程中，研究人员需克服数据标注一致性、图表示的统一性以及多源信息融合等技术难题，以确保数据集的可靠性与泛化能力。

常用场景

经典使用场景

在生物信息学领域，蛋白质功能预测是理解生命活动机制的关键环节。PROTEINS数据集作为分子属性预测的经典资源，其核心应用场景聚焦于基于图结构的二元分类任务。研究者通过构建蛋白质分子图模型，将蛋白质的序列、结构和化学信息整合为节点与边特征，进而利用图核方法或图神经网络，精准判别目标分子是否属于酶类。这一过程通常采用十折交叉验证评估模型性能，为蛋白质功能注释提供了稳健的计算框架。

实际应用

在实际应用中，PROTEINS数据集为新药研发与酶工程提供了关键支持。制药企业可借助基于该数据集训练的模型，快速筛选潜在酶靶点，加速药物先导化合物的发现。同时，在工业生物技术领域，模型能够辅助设计具有特定催化功能的人工酶，优化生物制造流程。这些应用不仅降低了实验成本，更推动了精准生物催化与个性化医疗的发展。

衍生相关工作

围绕PROTEINS数据集，衍生出一系列图机器学习的经典研究。早期工作如Borgwardt等人提出的图核方法，开创了蛋白质图分类的先河；后续研究则拓展至图卷积网络（GCN）、图注意力网络（GAT）等深度学习架构，持续提升分类性能。此外，该数据集常被用作基准，评估图表示学习、图分类及可解释性算法的有效性，催生了多篇影响力广泛的学术论文与开源工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集