five

OGB/ogbg-molhiv|分子属性预测数据集|图神经网络数据集

收藏
hugging_face2023-02-07 更新2024-03-04 收录
分子属性预测
图神经网络
下载链接:
https://hf-mirror.com/datasets/OGB/ogbg-molhiv
下载链接
链接失效反馈
资源简介:
`ogbg-molhiv`数据集是一个小型的分子属性预测数据集,由斯坦福团队从MoleculeNet改编而来,作为开放图基准(Open Graph Benchmark)的一部分。该数据集用于预测分子是否抑制HIV,是一个二分类任务,评估指标为ROC-AUC。数据集包含41,127个图,每个图包含节点特征、边索引、边属性和标签等信息。数据集遵循PyGeometric版本的数据分割,并提供了加载数据集的代码示例。
提供机构:
OGB
原始信息汇总

数据集概述

数据集名称

ogbg-molhiv

数据集摘要

ogbg-molhiv 是一个小型分子属性预测数据集,由斯坦福团队从MoleculeNet改编,作为Open Graph Benchmark的一部分。

支持的任务和排行榜

数据集结构

数据属性
  • 规模:小
  • 图数量:41,127
  • 平均节点数:25.5
  • 平均边数:27.5
  • 平均节点度:2.2
  • 平均聚类系数:0.002
  • 最大强连通分量比率:0.993
  • 图直径:12.0
数据字段
  • node_feat (列表: #nodes x #node-features)
  • edge_index (列表: 2 x #edges)
  • edge_attr (列表: #edges x #edge-features)
  • y (列表: 1 x #labels)
  • num_nodes (整数)
数据分割

数据遵循PyGeometric版本的数据分割,可通过以下代码获取分割信息: python from ogb.graphproppred import PygGraphPropPredDataset

dataset = PygGraphPropPredDataset(name = ogbg-molhiv)

split_idx = dataset.get_idx_split() train = dataset[split_idx[train]] # valid, test

附加信息

许可信息

数据集已根据MIT许可证发布。

引用信息

@inproceedings{hu-etal-2020-open, author = {Weihua Hu and Matthias Fey and Marinka Zitnik and Yuxiao Dong and Hongyu Ren and Bowen Liu and Michele Catasta and Jure Leskovec}, editor = {Hugo Larochelle and Marc Aurelio Ranzato and Raia Hadsell and Maria{-}Florina Balcan and Hsuan{-}Tien Lin}, title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs}, booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual}, year = {2020}, url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html}, }

贡献者

感谢 @clefourrier 添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ogbg-molhiv数据集源自MoleculeNet,由斯坦福大学团队改编并纳入Open Graph Benchmark(OGB)项目。该数据集专注于分子属性预测任务,旨在通过图结构数据预测分子是否具有抑制HIV的活性。数据集的构建过程包括从MoleculeNet中筛选相关分子数据,并将其转化为图结构表示,其中节点代表原子,边代表化学键,节点和边的特征则分别编码了原子和键的属性。
特点
ogbg-molhiv数据集包含41,127个分子图,平均每个图包含25.5个节点和27.5条边,节点平均度数为2.2。数据集的特点在于其图结构的稀疏性和小规模性,适合用于图神经网络模型的训练与验证。每个图的数据字段包括节点特征、边索引、边属性以及二元分类标签,标签表示分子是否具有抑制HIV的活性。数据集还提供了标准化的训练、验证和测试集划分,便于模型性能的评估与比较。
使用方法
ogbg-molhiv数据集可通过PyGeometric库加载,适用于图神经网络的研究与开发。用户可以使用`load_dataset`函数加载数据集,并将其转换为PyGeometric的`Data`对象,进而通过`DataLoader`进行批量处理。数据集的二元分类任务以ROC-AUC作为评估指标,用户可通过OGB和Papers with Code的排行榜比较模型性能。此外,数据集的分割信息可通过OGB提供的接口获取,便于用户按需划分训练、验证和测试集。
背景与挑战
背景概述
ogbg-molhiv数据集是斯坦福大学团队基于MoleculeNet构建的分子属性预测数据集,隶属于Open Graph Benchmark项目。该数据集于2020年发布,旨在为图机器学习领域提供高质量的基准数据,特别是用于分子图的二分类任务,即预测分子是否具有抑制HIV的活性。其核心研究问题在于如何通过图神经网络等模型高效地学习分子结构与其生物活性之间的关系。ogbg-molhiv的发布推动了分子图预测领域的研究进展,并为相关算法提供了标准化的评估平台。
当前挑战
ogbg-molhiv数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,分子属性预测任务需要模型能够从复杂的分子图中提取关键特征,而分子图的拓扑结构和化学特性往往具有高度复杂性,这对模型的表达能力提出了较高要求。其次,在数据集构建过程中,如何从原始分子数据中提取有效的节点和边特征,并确保数据分布的均衡性,是构建高质量数据集的关键挑战。此外,由于分子数据的稀疏性和多样性,如何在有限的样本规模下实现模型的泛化能力,也是该领域亟待解决的问题。
常用场景
经典使用场景
在分子图结构分析领域,`ogbg-molhiv`数据集被广泛应用于分子属性预测任务,特别是用于判断分子是否具有抑制HIV的活性。该数据集通过图神经网络(GNN)等模型,能够有效捕捉分子结构中的复杂关系,为药物发现和分子设计提供了重要的数据支持。
衍生相关工作
基于`ogbg-molhiv`数据集,许多经典的研究工作得以展开。例如,研究者们开发了多种图神经网络模型,如GCN、GAT和GraphSAGE,用于分子属性预测。这些模型不仅在`ogbg-molhiv`数据集上取得了优异的性能,还为其他分子图数据集的研究提供了宝贵的经验和参考。
数据集最近研究
最新研究方向
在分子图机器学习领域,`ogbg-molhiv`数据集作为Open Graph Benchmark的重要组成部分,近年来在分子属性预测任务中展现了其独特的研究价值。该数据集专注于预测分子是否具有抑制HIV的活性,这一任务在药物发现和生物信息学中具有重要的应用前景。随着图神经网络(GNN)技术的快速发展,研究者们正致力于通过改进模型架构、优化特征提取方法以及引入自监督学习策略,以提升模型在`ogbg-molhiv`数据集上的性能。此外,跨领域知识的融合,如将化学信息学与深度学习相结合,也为该数据集的研究开辟了新的方向。这些前沿探索不仅推动了分子图机器学习领域的进步,也为药物研发提供了更为精准的计算工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录