five

OGB/ogbg-molhiv|分子属性预测数据集|图神经网络数据集

收藏
hugging_face2023-02-07 更新2024-03-04 收录
分子属性预测
图神经网络
下载链接:
https://hf-mirror.com/datasets/OGB/ogbg-molhiv
下载链接
链接失效反馈
资源简介:
`ogbg-molhiv`数据集是一个小型的分子属性预测数据集,由斯坦福团队从MoleculeNet改编而来,作为开放图基准(Open Graph Benchmark)的一部分。该数据集用于预测分子是否抑制HIV,是一个二分类任务,评估指标为ROC-AUC。数据集包含41,127个图,每个图包含节点特征、边索引、边属性和标签等信息。数据集遵循PyGeometric版本的数据分割,并提供了加载数据集的代码示例。
提供机构:
OGB
原始信息汇总

数据集概述

数据集名称

ogbg-molhiv

数据集摘要

ogbg-molhiv 是一个小型分子属性预测数据集,由斯坦福团队从MoleculeNet改编,作为Open Graph Benchmark的一部分。

支持的任务和排行榜

数据集结构

数据属性
  • 规模:小
  • 图数量:41,127
  • 平均节点数:25.5
  • 平均边数:27.5
  • 平均节点度:2.2
  • 平均聚类系数:0.002
  • 最大强连通分量比率:0.993
  • 图直径:12.0
数据字段
  • node_feat (列表: #nodes x #node-features)
  • edge_index (列表: 2 x #edges)
  • edge_attr (列表: #edges x #edge-features)
  • y (列表: 1 x #labels)
  • num_nodes (整数)
数据分割

数据遵循PyGeometric版本的数据分割,可通过以下代码获取分割信息: python from ogb.graphproppred import PygGraphPropPredDataset

dataset = PygGraphPropPredDataset(name = ogbg-molhiv)

split_idx = dataset.get_idx_split() train = dataset[split_idx[train]] # valid, test

附加信息

许可信息

数据集已根据MIT许可证发布。

引用信息

@inproceedings{hu-etal-2020-open, author = {Weihua Hu and Matthias Fey and Marinka Zitnik and Yuxiao Dong and Hongyu Ren and Bowen Liu and Michele Catasta and Jure Leskovec}, editor = {Hugo Larochelle and Marc Aurelio Ranzato and Raia Hadsell and Maria{-}Florina Balcan and Hsuan{-}Tien Lin}, title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs}, booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual}, year = {2020}, url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html}, }

贡献者

感谢 @clefourrier 添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ogbg-molhiv数据集源自MoleculeNet,由斯坦福大学团队改编并纳入Open Graph Benchmark(OGB)项目。该数据集专注于分子属性预测任务,旨在通过图结构数据预测分子是否具有抑制HIV的活性。数据集的构建过程包括从MoleculeNet中筛选相关分子数据,并将其转化为图结构表示,其中节点代表原子,边代表化学键,节点和边的特征则分别编码了原子和键的属性。
特点
ogbg-molhiv数据集包含41,127个分子图,平均每个图包含25.5个节点和27.5条边,节点平均度数为2.2。数据集的特点在于其图结构的稀疏性和小规模性,适合用于图神经网络模型的训练与验证。每个图的数据字段包括节点特征、边索引、边属性以及二元分类标签,标签表示分子是否具有抑制HIV的活性。数据集还提供了标准化的训练、验证和测试集划分,便于模型性能的评估与比较。
使用方法
ogbg-molhiv数据集可通过PyGeometric库加载,适用于图神经网络的研究与开发。用户可以使用`load_dataset`函数加载数据集,并将其转换为PyGeometric的`Data`对象,进而通过`DataLoader`进行批量处理。数据集的二元分类任务以ROC-AUC作为评估指标,用户可通过OGB和Papers with Code的排行榜比较模型性能。此外,数据集的分割信息可通过OGB提供的接口获取,便于用户按需划分训练、验证和测试集。
背景与挑战
背景概述
ogbg-molhiv数据集是斯坦福大学团队基于MoleculeNet构建的分子属性预测数据集,隶属于Open Graph Benchmark项目。该数据集于2020年发布,旨在为图机器学习领域提供高质量的基准数据,特别是用于分子图的二分类任务,即预测分子是否具有抑制HIV的活性。其核心研究问题在于如何通过图神经网络等模型高效地学习分子结构与其生物活性之间的关系。ogbg-molhiv的发布推动了分子图预测领域的研究进展,并为相关算法提供了标准化的评估平台。
当前挑战
ogbg-molhiv数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,分子属性预测任务需要模型能够从复杂的分子图中提取关键特征,而分子图的拓扑结构和化学特性往往具有高度复杂性,这对模型的表达能力提出了较高要求。其次,在数据集构建过程中,如何从原始分子数据中提取有效的节点和边特征,并确保数据分布的均衡性,是构建高质量数据集的关键挑战。此外,由于分子数据的稀疏性和多样性,如何在有限的样本规模下实现模型的泛化能力,也是该领域亟待解决的问题。
常用场景
经典使用场景
在分子图结构分析领域,`ogbg-molhiv`数据集被广泛应用于分子属性预测任务,特别是用于判断分子是否具有抑制HIV的活性。该数据集通过图神经网络(GNN)等模型,能够有效捕捉分子结构中的复杂关系,为药物发现和分子设计提供了重要的数据支持。
衍生相关工作
基于`ogbg-molhiv`数据集,许多经典的研究工作得以展开。例如,研究者们开发了多种图神经网络模型,如GCN、GAT和GraphSAGE,用于分子属性预测。这些模型不仅在`ogbg-molhiv`数据集上取得了优异的性能,还为其他分子图数据集的研究提供了宝贵的经验和参考。
数据集最近研究
最新研究方向
在分子图机器学习领域,`ogbg-molhiv`数据集作为Open Graph Benchmark的重要组成部分,近年来在分子属性预测任务中展现了其独特的研究价值。该数据集专注于预测分子是否具有抑制HIV的活性,这一任务在药物发现和生物信息学中具有重要的应用前景。随着图神经网络(GNN)技术的快速发展,研究者们正致力于通过改进模型架构、优化特征提取方法以及引入自监督学习策略,以提升模型在`ogbg-molhiv`数据集上的性能。此外,跨领域知识的融合,如将化学信息学与深度学习相结合,也为该数据集的研究开辟了新的方向。这些前沿探索不仅推动了分子图机器学习领域的进步,也为药物研发提供了更为精准的计算工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录