five

graphs-datasets/AQSOL

收藏
Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graphs-datasets/AQSOL
下载链接
链接失效反馈
官方服务:
资源简介:
AQSOL数据集来源于Benchmarking Graph Neural Networks论文,基于AqSolDB,包含9,982个分子图及其水溶性值,这些数据来自9个不同的数据源。该数据集主要用于图回归任务,特别是水溶性预测。

The AQSOL dataset is derived from the paper "Benchmarking Graph Neural Networks" and based on AqSolDB. It contains 9,982 molecular graphs along with their corresponding water solubility values, with the data sourced from 9 distinct data sources. This dataset is primarily utilized for graph regression tasks, particularly water solubility prediction.
提供机构:
graphs-datasets
原始信息汇总

数据集概述

数据集名称

AQSOL

数据集来源

基于AqSolDB,一个包含9,982个分子图及其水溶性值的标准化数据库,数据来源于9个不同的数据源。

数据集用途

用于图回归任务,特别是水溶性的预测。

数据集结构

数据属性
  • 图数量: 9,833
  • 平均节点数: 17.6
  • 平均边数: 35.8
数据字段
  • node_feat (列表: #nodes x #node-features): 节点特征
  • edge_index (列表: 2 x #edges): 构成边的节点对
  • edge_attr (列表: #edges x #edge-features): 边的特征
  • y (列表: #labels): 可用于预测的标签数量
  • num_nodes (整数): 图的节点数

数据集分割

数据集已分割,具体分割方式参考PyGeometric版本的数据集。

许可证信息

数据集根据MIT许可证发布。

引用信息

@article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,AQSOL数据集的构建源于对水溶性预测这一关键物化性质的系统整合。该数据集以AqSolDB标准化数据库为基础,汇集了来自九个不同数据源的九千余个分子图结构及其对应的水溶解度数值。通过精心筛选与统一处理,每个分子被抽象为图表示,其中原子映射为节点,化学键则转化为边,最终形成包含九千八百三十三个分子图的标准化集合,为图神经网络提供了结构化的回归任务基准。
使用方法
为便于学术与应用实践,该数据集可通过Hugging Face平台直接加载,并兼容PyGeometric图深度学习库。用户仅需调用datasets模块中的load_dataset函数,指定数据集路径即可获取划分后的训练、验证与测试子集。进一步地,通过将数据转换为PyGeometric的Data对象并封装至DataLoader,可便捷地融入现有图神经网络流程,实现端到端的水溶性预测模型构建与性能评测。
背景与挑战
背景概述
在计算化学与药物发现领域,准确预测分子的水溶性对于化合物筛选与设计至关重要。AQSOL数据集由Vijay Prakash Dwivedi、Chaitanya K. Joshi等研究人员于2020年构建,源自AqSolDB标准化数据库,整合了来自九个不同数据源的9,982个分子图及其水溶性数值。该数据集旨在为图神经网络提供基准测试平台,核心研究问题聚焦于通过分子图结构回归预测水溶性,推动了图神经网络在化学性质预测领域的应用与发展。
当前挑战
AQSOL数据集致力于解决分子水溶性预测这一复杂回归问题,其挑战在于分子结构的多样性与水溶性机制的复杂性,要求模型能够精准捕捉原子间相互作用与溶剂化效应。在构建过程中,数据集整合了多源异构数据,面临数据标准化、噪声消除与一致性对齐等挑战,同时需确保分子图表示的准确性与化学意义的完整性,以支撑可靠的机器学习模型训练与评估。
常用场景
经典使用场景
在计算化学与药物发现领域,AQSOL数据集作为分子图结构数据的典范,其经典应用场景聚焦于图回归任务。该数据集以分子图形式编码了9,833种化合物的结构信息,并标注了对应的水溶解度数值,为研究者提供了评估图神经网络预测分子性质能力的标准化基准。通过将分子抽象为节点与边构成的图,模型能够学习原子间相互作用与溶解度之间的复杂映射关系,从而推动分子性质预测的算法发展。
解决学术问题
该数据集有效应对了分子性质预测中数据标准化与模型评估的学术挑战。传统上,分子溶解度数据来源分散且格式不一,阻碍了机器学习模型的公平比较。AQSOL通过整合多个数据源并统一表示为图结构,解决了数据异构性问题,为图神经网络在化学领域的性能评估提供了可靠基准。其意义在于确立了图回归任务的标准评价体系,加速了图神经网络在化学信息学中的方法创新与理论进展。
实际应用
在实际应用层面,AQSOL数据集为药物研发与材料科学提供了关键支撑。药物设计过程中,化合物的水溶性直接影响其生物利用度与药效,快速准确预测溶解度可大幅缩短候选药物筛选周期。借助该数据集训练的模型,能够辅助化学家优先合成高溶解度分子,降低实验成本。此外,在环境化学领域,该技术可用于评估有机污染物在水体中的迁移行为,为环境风险评估提供量化工具。
数据集最近研究
最新研究方向
在化学信息学与计算材料科学领域,AQSOL数据集作为基于图神经网络的分子性质预测基准,正推动着前沿研究的发展。该数据集聚焦于水溶性回归任务,其核心价值在于为模型评估提供了标准化、多来源的分子图结构数据。当前研究热点集中于探索更强大的图神经网络架构,如注意力机制与几何深度学习方法的融合,以提升对分子复杂相互作用的建模能力。这些进展不仅加速了新药研发与材料设计中的溶解度预测,也为绿色化学与环境科学中的分子筛选提供了高效计算工具,彰显了数据驱动方法在跨学科研究中的深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作