five

qm8, qm9

收藏
github2023-12-19 更新2024-05-31 收录
下载链接:
https://github.com/Graph-and-Geometric-Learning/MolGroup
下载链接
链接失效反馈
官方服务:
资源简介:
qm8和qm9是用于分子属性预测的数据集,这些数据集通常用于机器学习和深度学习模型中,以预测分子的各种化学性质。

The qm8 and qm9 datasets are utilized for molecular property prediction. These datasets are commonly employed in machine learning and deep learning models to predict various chemical properties of molecules.
创建时间:
2023-10-27
原始信息汇总

数据集概述

数据集准备

  • 数据集下载命令
    • 下载 ogb/graphproppred/master.csv 文件。
    • 创建并下载 qm8 数据集文件 qm8.csv
    • 创建并下载 qm9 数据集文件 qm9.csv

环境要求

  • Python版本:3.9.16
  • 依赖包
    • pytorch == 1.13.1+cu117
    • torch_geometric == 2.3.1
    • ogb == 1.3.6
    • rdkit == 2023.03.2
    • pandas == 1.3.1
    • cython == 3.0.0

运行示例

  • 数据集组合示例
    • 运行所有自定义数据集对(上采样/下采样训练实例)。
    • 预训练 graphormerpcqm4mv2 数据集上。
    • 运行 molgroup 示例。
    • 运行 vanilla GIN 数据集组合示例。
    • 运行预训练 Graphormer 数据集组合示例。

超参数描述

  • 超参数文件utils/utils.py
  • 关键超参数datasets,指定用于数据集组合的数据集名称列表,其中第一个数据集为目标数据集
搜集汇总
数据集介绍
main_image_url
构建方式
qm8和qm9数据集的构建基于分子图结构及其相关属性,数据来源于DeepChem平台。通过wget命令从指定URL下载CSV格式的数据文件,分别存储在qm8和qm9目录中。数据集的构建过程依赖于Python环境及一系列科学计算库,如PyTorch、torch_geometric和ogb等,确保了数据的完整性和可操作性。
特点
qm8和qm9数据集专注于分子图结构及其物理化学属性,涵盖了丰富的分子信息。qm8数据集包含约22,000个分子,qm9数据集则包含约134,000个分子,每个分子均标注了多种量子化学性质,如能量、偶极矩等。这些数据为分子性质预测和分子设计提供了坚实的基础,适用于机器学习模型的训练与验证。
使用方法
使用qm8和qm9数据集时,需配置Python 3.9.16环境并安装相关依赖库。通过运行提供的脚本文件,如`all_pairs.sh`和`example_gin.sh`,可进行数据集组合、模型预训练及分子性质预测等任务。用户可根据需求调整超参数,如`datasets`列表,以指定目标数据集。数据集的使用方法灵活多样,支持多种机器学习框架和模型,如GIN和Graphormer。
背景与挑战
背景概述
qm8和qm9数据集是分子科学领域的重要资源,由Tinglin Huang、Ziniu Hu和Rex Ying等研究人员于2023年创建,并在NeurIPS 2023会议上发布。这些数据集旨在辅助分子性质预测任务,通过整合多个辅助数据集,提升分子模型的泛化能力。qm8和qm9数据集包含了大量分子结构及其相关性质的数据,为研究人员提供了丰富的实验材料。这些数据集的发布,不仅推动了分子科学领域的研究进展,也为机器学习在化学中的应用提供了新的可能性。
当前挑战
qm8和qm9数据集在解决分子性质预测问题时面临多重挑战。首先,分子数据的多样性和复杂性使得模型在泛化能力上存在局限,如何有效整合不同数据集以提升预测精度成为关键问题。其次,数据集的构建过程中,分子结构的表示和性质的计算需要高精度的化学工具和算法,这对数据质量和一致性提出了严格要求。此外,数据集的规模庞大,处理和分析这些数据需要高效的算法和计算资源,这对研究人员的计算能力提出了挑战。
常用场景
经典使用场景
在分子科学领域,qm8和qm9数据集被广泛应用于分子性质预测的研究中。这些数据集包含了大量小分子的量子化学计算数据,为研究者提供了丰富的实验材料。通过利用这些数据集,研究者能够训练和验证各种机器学习模型,以预测分子的电子结构、能量和光谱特性等关键性质。
实际应用
在实际应用中,qm8和qm9数据集被广泛用于药物设计和材料科学领域。通过利用这些数据集,研究者能够快速筛选出具有特定性质的分子,从而加速新药的发现和材料的开发。此外,这些数据集还被用于优化化学反应条件,提高化学合成的效率和选择性。
衍生相关工作
基于qm8和qm9数据集,研究者开发了多种先进的机器学习模型和算法。例如,Graphormer和GIN等图神经网络模型在这些数据集上进行了广泛的应用和验证。这些模型不仅在分子性质预测任务中表现出色,还为其他领域的图数据处理提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作