MolScaling

github2023-12-02 更新2024-05-31 收录

下载链接：

https://github.com/Data-reindeer/MolScaling

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供处理后的数据集，包括HIV、MUV和PCBA数据集，以及QM9数据集。这些数据集用于研究分子表示学习的神经缩放行为，涉及数据模式、数据分布、预训练干预和模型容量等多个维度。

We provide processed datasets, including the HIV, MUV, and PCBA datasets, as well as the QM9 dataset. These datasets are utilized to investigate the neural scaling behavior in molecular representation learning, encompassing various dimensions such as data patterns, data distribution, pre-training interventions, and model capacity.

创建时间：

2023-06-14

原始信息汇总

数据集概述

数据集名称

HIV
MUV
PCBA
QM9

数据集获取

数据集可通过Google Drive下载，链接为：https://drive.google.com/drive/folders/1sWrG8ZhBvx9lrfzMHEhbEpLPjHuBdjm_?usp=drive_link。
下载后需将数据集文件解压并放置于./datasets/目录下，保持以下结构： bash ./datasets/molecule_net ./datasets/qm9

数据集应用

数据集用于研究分子表示学习（MRL）中的神经缩放行为，涉及多个维度：
- 数据模态
- 数据分布
- 预训练干预
- 模型容量
此外，数据集还用于探索七种流行的数据修剪策略在分子数据上的应用。

实验命令示例

针对不同维度的实验，提供了具体的命令行示例，如： bash python main_graph.py --finetune_ratio=0.1 --dataset=hiv python main_3d.py --finetune_ratio=0.1 --property=gap

引用信息

如需引用此数据集，请使用以下引用格式：

@article{chen2023uncovering, title={Uncovering Neural Scaling Laws in Molecular Representation Learning}, author={Chen, Dingshuo and Zhu, Yanqiao and Zhang, Jieyu and Du, Yuanqi and Li, Zhixun and Liu, Qiang and Wu, Shu and Wang, Liang}, journal={arXiv preprint arXiv:2309.15123}, year={2023} }

搜集汇总

数据集介绍

构建方式

MolScaling数据集的构建基于分子表示学习领域的前沿研究，旨在揭示神经网络在分子数据上的扩展规律。该数据集通过整合多个公开的分子数据集（如HIV、MUV、PCBA和QM9），并对其进行预处理，以确保数据的统一性和可用性。数据集的构建过程包括数据下载、提取和结构化存储，用户需按照指定的目录结构放置数据文件，以便后续实验的顺利进行。

特点

MolScaling数据集的特点在于其多维度的实验设计，涵盖了数据模态、数据分布、预训练干预和模型容量等多个维度。此外，该数据集还引入了七种流行的数据剪枝策略，以探索突破扩展规律的可能性。数据集不仅提供了丰富的分子数据，还包含了预训练模型权重和详细的实验配置，支持用户在不同场景下进行分子表示学习的深入研究。

使用方法

MolScaling数据集的使用方法包括数据准备、环境配置和实验执行。用户需通过Conda创建Python环境并安装所需的依赖库，随后下载并解压数据集文件。实验部分提供了详细的命令行指令，用户可以通过调整超参数（如finetune_ratio、dataset等）来探索不同维度下的神经网络扩展行为。此外，数据集还支持预训练模型的加载和重新训练，以及多种数据剪枝策略的应用，为分子表示学习的研究提供了灵活的实验框架。

背景与挑战

背景概述

MolScaling数据集由Dingshuo Chen等研究人员于2023年提出，旨在揭示分子表示学习中的神经缩放规律。该数据集的核心研究问题围绕分子数据的多维度特性展开，包括数据模态、数据分布、预训练干预和模型容量等方面。通过提供HIV、MUV、PCBA和QM9等分子数据集，MolScaling为研究人员提供了一个系统化的实验平台，以探索分子表示学习中的缩放行为。该数据集的研究成果不仅推动了分子表示学习领域的发展，还为数据剪枝策略在分子数据中的应用提供了新的视角。

当前挑战

MolScaling数据集在解决分子表示学习中的神经缩放规律问题时，面临多重挑战。首先，分子数据的多样性和复杂性使得数据模态的选择和处理成为关键难题，如何在不同的分子表示形式（如图结构、指纹、SMILES字符串）之间进行有效转换和融合，直接影响模型的性能。其次，数据分布的异质性，如随机分布、骨架分布和不平衡分布，对模型的泛化能力提出了严峻考验。此外，预训练模型的引入虽然提升了模型的初始性能，但其对数据量和计算资源的需求也显著增加。最后，数据剪枝策略的应用虽然能够有效减少数据冗余，但其在分子数据中的适用性和效果仍需进一步验证。

常用场景

经典使用场景

MolScaling数据集在分子表示学习领域中被广泛用于探索神经缩放定律。通过该数据集，研究人员能够深入分析不同数据模态、数据分布、预训练干预和模型容量对分子表示学习的影响。经典的使用场景包括在HIV、MUV和PCBA等分子数据集上进行微调实验，以验证不同数据修剪策略对模型性能的提升效果。

解决学术问题

MolScaling数据集解决了分子表示学习中的神经缩放行为问题，尤其是在数据量有限的情况下如何优化模型性能。通过该数据集，研究人员能够系统地研究数据修剪策略对模型性能的影响，从而为分子表示学习提供了新的理论依据和实践指导。此外，该数据集还揭示了预训练对分子表示学习的重要性，为未来的研究提供了新的方向。

衍生相关工作

MolScaling数据集衍生了一系列经典的研究工作，特别是在分子表示学习领域。基于该数据集，研究人员提出了多种数据修剪策略，如Herding、Uncertainty和Kmeans等，这些策略在分子数据上的应用显著提升了模型的性能。此外，该数据集还推动了预训练模型在分子表示学习中的应用，为后续的研究提供了重要的参考和实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集