LRGB/peptides-functional
收藏Hugging Face2023-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LRGB/peptides-functional
下载链接
链接失效反馈官方服务:
资源简介:
`peptides-functional`数据集是一个用于图分类任务的化学领域数据集。它包含15,535个图表,共有2,344,859个节点和4,773,974条边。每个节点具有9维的原子编码特征,每条边具有3维的键编码特征。数据集的性能评估指标为平均精度(AP)。此外,数据集的平均节点数为150.94,平均度数为2.04,平均边数为307.30,平均最短路径为20.89±9.79,平均直径为56.99±28.72。
The `peptides-functional` dataset is a chemistry-domain dataset designed for graph classification tasks. It contains 15,535 graphs, with a total of 2,344,859 nodes and 4,773,974 edges. Each node is equipped with a 9-dimensional atomic encoding feature, while each edge has a 3-dimensional bond encoding feature. The performance evaluation metric for this dataset is Average Precision (AP). Additionally, the average number of nodes per graph is 150.94, the average degree is 2.04, the average number of edges is 307.30, the average shortest path is 20.89±9.79, and the average diameter is 56.99±28.72.
提供机构:
LRGB
原始信息汇总
数据集概述
数据集名称
peptides-functional
数据集摘要
基本信息
| 数据集 | 领域 | 任务 | 节点特征(维度) | 边特征(维度) | 性能指标 |
|---|---|---|---|---|---|
| Peptides-func | 化学 | 图分类 | Atom Encoder (9) | Bond Encoder (3) | AP |
统计信息
| 数据集 | 图数量 | 节点总数 | 平均节点数 | 平均度 | 边总数 | 平均边数 | 平均最短路径 | 平均直径 |
|---|---|---|---|---|---|---|---|---|
| Peptides-func | 15,535 | 2,344,859 | 150.94 | 2.04 | 4,773,974 | 307.30 | 20.89±9.79 | 56.99±28.72 |
数据集属性
- 任务类别:graph-ml
- 大小类别:1M<n<10M
- 标签:lrgb
- 许可证:cc-by-nc-4.0
搜集汇总
数据集介绍

构建方式
LRGB/peptides-functional数据集的构建,是在化学领域中对肽分子结构进行深入分析的基础上,运用图机器学习技术,对肽分子的原子和键进行编码,形成节点特征和边特征,进而构建成图结构数据。该数据集包含了15535个图,共计2344859个节点和4773974条边,旨在为图分类任务提供性能评估的基准。
使用方法
使用LRGB/peptides-functional数据集,研究者可以首先通过引用其提供的原子和键编码方式来构建图模型,然后利用数据集中的图结构进行训练和测试。该数据集的开放许可(cc-by-nc-4.0)使得它可以被广泛地应用于学术研究和商业产品开发中,但需遵循相应的许可协议。引用相关文献是使用此数据集的标准做法,以确保学术诚信和知识产权的尊重。
背景与挑战
背景概述
在化学领域,对肽的功能性进行准确预测对于药物设计与生物化学研究至关重要。LRGB/peptides-functional数据集,创建于2022年,由Vijay Prakash Dwivedi等研究人员精心构建,旨在为图机器学习任务提供一个功能肽的基准数据集。该数据集包含15535个图,2344859个节点,以及4773974条边,通过原子编码器和键编码器提取节点和边特征,使用平均精度(AP)作为性能指标。该数据集对化学信息学、分子建模以及药物设计等领域产生了显著影响,为研究者提供了一个评价和比较图机器学习模型性能的重要平台。
当前挑战
LRGB/peptides-functional数据集在构建过程中面临了多个挑战。首先,在化学结构数据的收集和预处理中,确保数据的准确性和完整性是一项重要任务。其次,由于功能肽结构的复杂性和多样性,设计能够有效编码节点和边特征的编码器是另一个挑战。此外,数据集中图的不规则性和尺度变化的处理,以及如何在保持预测精确度的同时提高模型的泛化能力,都是当前研究需要解决的问题。
常用场景
经典使用场景
在化学领域,特别是在分子的功能性质研究中,LRGB/peptides-functional数据集的应用尤为经典。该数据集包含了大量的肽图,通过图分类任务,研究人员可以预测肽链的功能性。其核心在于利用图机器学习算法,对肽分子中的原子和键进行编码,进而预测其生物活性。
解决学术问题
该数据集解决了化学研究中一个关键的问题,即如何高效地从分子结构中预测其功能性质。通过提供结构化的图数据,它使得研究人员能够利用机器学习技术,特别是图神经网络,来识别分子间复杂的相互作用,这对于药物设计和疾病机理研究具有重要的学术意义。
实际应用
实际应用中,LRGB/peptides-functional数据集可用于药物分子的筛选和优化。通过预测分子的功能性质,研究人员可以更有效地筛选出具有潜在药理活性的分子,从而加速新药的发现过程,降低研发成本。
数据集最近研究
最新研究方向
在化学领域的分子性质预测任务中,图机器学习技术正日益显示出其独特的优势。LRGB/peptides-functional数据集为此领域提供了重要的基准。近期研究聚焦于如何通过图神经网络更精确地捕捉长距离依赖关系,以及如何在节点和边特征编码上实现更高的性能。该数据集以其独特的原子编码器和键编码器设计,为探索分子内部复杂结构与其功能之间关系的研究提供了新的视角,对于提升药物设计、材料科学等领域的预测精度具有显著意义。
以上内容由遇见数据集搜集并总结生成



