graphs-datasets/ZINC

Name: graphs-datasets/ZINC
Creator: graphs-datasets
Published: 2023-02-07 16:37:32
License: 暂无描述

Hugging Face2023-02-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/graphs-datasets/ZINC

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: unknown dataset_info: features: - name: node_feat sequence: sequence: int64 - name: edge_index sequence: sequence: int64 - name: edge_attr sequence: sequence: int64 - name: 'y' sequence: float64 - name: num_nodes dtype: int64 splits: - name: train num_bytes: 376796456 num_examples: 220011 - name: test num_bytes: 8538528 num_examples: 5000 - name: validation num_bytes: 41819628 num_examples: 24445 download_size: 20636253 dataset_size: 427154612 task_categories: - graph-ml --- # Dataset Card for ZINC ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [External Use](#external-use) - [PyGeometric](#pygeometric) - [Dataset Structure](#dataset-structure) - [Data Properties](#data-properties) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Additional Information](#additional-information) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **[Homepage](https://zinc15.docking.org/)** - **[Repository](https://www.dropbox.com/s/feo9qle74kg48gy/molecules.zip?dl=1):**: - **Paper:**: ZINC 15 – Ligand Discovery for Everyone (see citation) - **Leaderboard:**: [Papers with code leaderboard](https://paperswithcode.com/sota/) ### Dataset Summary The `ZINC` dataset is a "curated collection of commercially available chemical compounds prepared especially for virtual screening" (Wikipedia). ### Supported Tasks and Leaderboards `ZINC` should be used for molecular property prediction (aiming to predict the constrained solubility of the molecules), a graph regression task. The score used is the MAE. The associated leaderboard is here: [Papers with code leaderboard](https://paperswithcode.com/sota/graph-regression-on-zinc). ## External Use ### PyGeometric To load in PyGeometric, do the following: ```python from datasets import load_dataset from torch_geometric.data import Data from torch_geometric.loader import DataLoader dataset_hf = load_dataset("graphs-datasets/<mydataset>") # For the train set (replace by valid or test as needed) dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]] dataset_pg = DataLoader(dataset_pg_list) ``` ## Dataset Structure ### Data Properties | property | value | |---|---| | scale | big | | #graphs | 220011 | | average #nodes | 23.15 | | average #edges | 49.81 | ### Data Fields Each row of a given file is a graph, with: - `node_feat` (list: #nodes x #node-features): nodes - `edge_index` (list: 2 x #edges): pairs of nodes constituting edges - `edge_attr` (list: #edges x #edge-features): for the aforementioned edges, contains their features - `y` (list: 1 x #labels): contains the number of labels available to predict (here 1, equal to zero or one) - `num_nodes` (int): number of nodes of the graph ### Data Splits This data comes from the PyGeometric version of the dataset, and follows the provided data splits. This information can be found back using ```python from torch_geometric.datasets import ZINC dataset = ZINC(root = '', split='train') # valid, test ``` ## Additional Information ### Licensing Information The dataset has been released under unknown license. Please open an issue if you know what is the license of this dataset. ### Citation Information ```bibtex @article{doi:10.1021/acs.jcim.5b00559, author = {Sterling, Teague and Irwin, John J.}, title = {ZINC 15 – Ligand Discovery for Everyone}, journal = {Journal of Chemical Information and Modeling}, volume = {55}, number = {11}, pages = {2324-2337}, year = {2015}, doi = {10.1021/acs.jcim.5b00559}, note ={PMID: 26479676}, URL = { https://doi.org/10.1021/acs.jcim.5b00559 }, eprint = { https://doi.org/10.1021/acs.jcim.5b00559 } } ``` ### Contributions Thanks to [@clefourrier](https://github.com/clefourrier) for adding this dataset.

--- 许可证：未知数据集信息：特征列表： - 名称: node_feat 序列结构: 序列类型: int64 - 名称: edge_index 序列结构: 序列类型: int64 - 名称: edge_attr 序列结构: 序列类型: int64 - 名称: 'y' 序列结构: 序列类型: float64 - 名称: num_nodes 数据类型: int64 数据划分： - 名称: 训练集（train）占用字节数: 376796456 样本数量: 220011 - 名称: 测试集（test）占用字节数: 8538528 样本数量: 5000 - 名称: 验证集（validation）占用字节数: 41819628 样本数量: 24445 下载大小: 20636253 数据集总大小: 427154612 任务类别: 图机器学习（graph-ml） --- ## ZINC数据集卡片 ## 目录 - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集摘要](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [外部使用](#external-use) - [PyGeometric](#pygeometric) - [数据集结构](#dataset-structure) - [数据属性](#data-properties) - [数据字段](#data-fields) - [数据划分](#data-splits) - [附加信息](#additional-information) - [许可证信息](#licensing-information) - [引用信息](#citation-information) - [贡献致谢](#contributions) ## 数据集描述 - **[数据集主页](https://zinc15.docking.org/)** - **[代码仓库](https://www.dropbox.com/s/feo9qle74kg48gy/molecules.zip?dl=1):** - **相关论文:** ZINC 15 – 面向大众的配体发现工具（引用信息见下文） - **排行榜:** [Papers with Code 排行榜](https://paperswithcode.com/sota/) ### 数据集摘要 `ZINC`数据集是"专为虚拟筛选打造的商用化学品精选集合"（引自维基百科）。 ### 支持任务与排行榜 `ZINC`数据集适用于分子属性预测任务（目标为预测分子的约束溶解度），属于图回归任务，评估指标为平均绝对误差（Mean Absolute Error，MAE）。相关排行榜可参见：[Papers with Code 图回归任务ZINC赛道排行榜](https://paperswithcode.com/sota/graph-regression-on-zinc)。 ## 外部使用 ### PyGeometric 若需在PyGeometric中加载该数据集，请执行以下代码： python from datasets import load_dataset from torch_geometric.data import Data from torch_geometric.loader import DataLoader dataset_hf = load_dataset("graphs-datasets/<mydataset>") # 针对训练集（可根据需要替换为验证集或测试集） dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]] dataset_pg = DataLoader(dataset_pg_list) ## 数据集结构 ### 数据属性 | 属性 | 取值 | |---|---| | 数据规模 | 大规模 | | 总图数 | 220011 | | 平均节点数 | 23.15 | | 平均边数 | 49.81 | ### 数据字段每个文件的每一行对应一张图，包含以下字段： - `node_feat`（维度：节点数 × 节点特征数）：节点特征矩阵 - `edge_index`（维度：2 × 边数）：构成边的节点对索引 - `edge_attr`（维度：边数 × 边特征数）：对应各边的特征信息 - `y`（维度：1 × 标签数）：待预测的标签集合（本数据集标签数为1，取值为0或1） - `num_nodes`（整数类型）：该图的节点总数 ### 数据划分本数据集源自PyGeometric库提供的版本，并遵循其预设的数据划分方式。可通过以下代码获取划分信息： python from torch_geometric.datasets import ZINC dataset = ZINC(root = '', split='train') # 可替换为valid或test以获取对应划分集 ## 附加信息 ### 许可证信息本数据集采用未知许可证发布，若您知晓其具体许可证类型，欢迎提交Issue告知。 ### 引用信息 bibtex @article{doi:10.1021/acs.jcim.5b00559, author = {Sterling, Teague and Irwin, John J.}, title = {ZINC 15 – Ligand Discovery for Everyone}, journal = {Journal of Chemical Information and Modeling}, volume = {55}, number = {11}, pages = {2324-2337}, year = {2015}, doi = {10.1021/acs.jcim.5b00559}, note ={PMID: 26479676}, URL = { https://doi.org/10.1021/acs.jcim.5b00559 }, eprint = { https://doi.org/10.1021/acs.jcim.5b00559 } } ### 贡献致谢感谢[@clefourrier](https://github.com/clefourrier)贡献本数据集。

提供机构：

graphs-datasets

原始信息汇总

数据集概述

数据集名称

ZINC

数据集描述

ZINC 数据集是一个特别为虚拟筛选准备的商业可用化学化合物的精选集合。

数据集特征

node_feat: 序列类型为 int64。
edge_index: 序列类型为 int64。
edge_attr: 序列类型为 int64。
y: 序列类型为 float64。
num_nodes: 数据类型为 int64。

数据集分割

训练集: 包含 220011 个样本，总大小为 376796456 字节。
测试集: 包含 5000 个样本，总大小为 8538528 字节。
验证集: 包含 24445 个样本，总大小为 41819628 字节。

数据集大小

下载大小: 20636253 字节。
数据集总大小: 427154612 字节。

任务类别

graph-ml

数据集属性

规模: 大
图数量: 220011
平均节点数: 23.15
平均边数: 49.81

数据字段

node_feat: 节点特征列表。
edge_index: 构成边的节点对列表。
edge_attr: 边特征列表。
y: 标签列表。
num_nodes: 图的节点数。

许可证信息

许可证: 未知

引用信息

bibtex @article{doi:10.1021/acs.jcim.5b00559, author = {Sterling, Teague and Irwin, John J.}, title = {ZINC 15 – Ligand Discovery for Everyone}, journal = {Journal of Chemical Information and Modeling}, volume = {55}, number = {11}, pages = {2324-2337}, year = {2015}, doi = {10.1021/acs.jcim.5b00559}, note ={PMID: 26479676},

URL = { https://doi.org/10.1021/acs.jcim.5b00559

}, eprint = { https://doi.org/10.1021/acs.jcim.5b00559

}

贡献者

@clefourrier

搜集汇总

数据集介绍

构建方式

ZINC数据集的构建基于对商业可用化学化合物的精心筛选，特别为虚拟筛选而准备。该数据集包含了一系列图，每个图代表一个分子的结构，其中节点表示原子，边表示化学键。数据集的构建涉及从分子的化学结构中提取特征，包括节点特征、边特征以及分子属性标签，如分子的溶解度。这些信息通过分子图的形式被编码，形成了数据集中的每一个样本。

特点

ZINC数据集的主要特点在于其规模宏大，包含220,011个分子图，平均每个图包含23.15个节点和49.81条边。数据集特别适用于分子属性预测任务，其中的图回归任务旨在预测分子的约束溶解性。此外，数据集提供了训练集、验证集和测试集的划分，便于模型训练和评估。每个图样例都包含了节点特征、边索引、边属性以及目标标签，为研究提供了丰富的信息。

使用方法

使用ZINC数据集时，用户可以直接从HuggingFace的 datasets 库中加载。加载后，数据以图的形式存在，每个图都包含了节点特征、边索引、边属性和目标标签。用户可以使用PyGeometric库来处理这些图数据，进行数据预处理、模型训练和评估等任务。具体使用时，用户需要根据数据集的结构和自己的需求来编写相应的数据处理流程，例如，将数据集中的图转换为PyGeometric可处理的Data对象，并使用DataLoader进行批量处理。

背景与挑战

背景概述

ZINC数据集，作为商业可用化学化合物的精选集合，专为虚拟筛选而准备，其创建旨在服务于分子性质预测的研究领域。该数据集由Sterling和Irwin于2015年推出，是分子水平研究中不可或缺的资源，为科研人员提供了丰富的化学信息，以预测分子的溶解性等属性。ZINC数据集的发布，极大推动了药物设计与材料科学的发展，成为了相关领域研究的基石。

当前挑战

尽管ZINC数据集为分子性质预测提供了有力支持，但研究者在使用过程中面临诸多挑战。首先，数据集构建过程中的化学信息提取和质量控制是一项复杂任务，确保数据的准确性和一致性至关重要。其次，数据集规模庞大，对计算资源提出了较高要求，特别是在模型训练和预测时。此外，未知的数据许可问题也给数据的使用和共享带来了一定的困扰。

常用场景

经典使用场景

在化学信息学领域，ZINC数据集被广泛用于分子的虚拟筛选，其经典的使用场景在于分子属性预测任务，尤其是预测分子的溶解度。通过图回归模型，研究者可以基于分子的图表示来预测其在水中的溶解性，这对于药物设计和材料科学具有重要意义。

实际应用

实际应用中，ZINC数据集被用于药物设计和筛选过程，帮助科学家发现新的药物候选分子。在药物开发早期阶段，通过预测分子的溶解度和其他属性，可以筛选出最有潜力的化合物，降低研发成本，加速药物上市流程。

衍生相关工作

基于ZINC数据集，学术界产生了众多经典工作，包括分子图表示学习、图神经网络的应用研究，以及分子属性预测模型的开发。这些研究不仅推动了化学信息学领域的发展，也为生物医学、材料科学等相关领域提供了新的研究方法和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集