five

EDBench

收藏
arXiv2025-05-14 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.09262v1
下载链接
链接失效反馈
官方服务:
资源简介:
EDBench是一个大规模、高质量的电子密度(ED)数据集,旨在推动基于学习的电子级研究。该数据集基于PCQM4Mv2构建,提供了精确的ED数据,覆盖了330万个分子。EDBench包含与ED分布相对应的3,359,472个药物类分子以及一系列量子化学性质,包括能量成分、轨道能量和多极矩,为系统研究ED在分子建模中的作用提供了坚实的基础。

EDBench is a large-scale, high-quality electron density (ED) dataset designed to advance learning-based electronic structure research. Built upon PCQM4Mv2, it provides accurate ED data covering 3,359,472 drug-like molecules with corresponding ED distributions, and includes a suite of quantum chemical properties including energy components, orbital energies, and multipole moments. This dataset establishes a solid foundation for systematically studying the role of electron density in molecular modeling.
提供机构:
湖南大学计算机科学与电子工程学院, 华东师范大学生命科学学院, 湖南大学材料科学与工程学院, 中国科学技术大学, 西湖大学, 东方技术学院
创建时间:
2025-05-14
搜集汇总
数据集介绍
main_image_url
构建方式
EDBench数据集的构建基于PCQM4Mv2数据集,通过密度泛函理论(DFT)计算了3,359,472个分子的电子密度(ED)。采用B3LYP混合泛函和6-31G**/+G**基组,确保了计算的高精度和可靠性。计算过程在高性能服务器上完成,总计算时间超过205,000核心小时,相当于23.4年的单核计算时间。电子密度数据以CUBE文件格式存储,网格间距为0.4 Bohr,填充为4.0 Bohr,密度分数阈值为0.85,以定义等值面区域。
特点
EDBench是目前最大规模的电子密度数据集,覆盖了3.3百万个药物类分子。数据集不仅包含电子密度分布,还提供了一系列量子化学性质,如能量组分、轨道能量和多极矩。此外,EDBench还设计了一套以电子密度为中心的基准任务,包括预测、检索和生成任务,全面评估模型对电子信息的理解和利用能力。数据集的高质量和多样性为电子尺度的学习研究提供了坚实的基础。
使用方法
EDBench数据集的使用方法包括三个主要任务:量子性质预测、分子结构与电子密度的跨模态检索以及基于分子结构的电子密度生成。数据集采用支架分割法,分为80%训练集、10%验证集和10%测试集,以评估模型的泛化能力。用户可以通过提供的基准任务评估模型的性能,如使用MAE评估回归任务,使用Top-k准确率评估检索任务。此外,数据集还支持预训练策略的开发,剩余数据可用于未来研究。
背景与挑战
背景概述
EDBench是由湖南大学、华东师范大学等机构的研究团队于2025年提出的一个大规模电子密度数据集,旨在推动分子力场研究从原子尺度向电子尺度的跨越。该数据集基于PCQM4Mv2构建,包含333万药物类分子的精确电子密度数据,采用B3LYP/6-31G**/+G**方法进行密度泛函理论计算,总计算量超过20.5万核时。其创新性在于首次系统地将电子密度这一量子力学核心物理量引入机器学习力场建模,通过Hohenberg-Kohn定理建立了电子密度与分子基态性质的理论桥梁,为药物发现和材料科学提供了电子层面的研究基础。
当前挑战
该数据集主要面临两大挑战:在领域问题层面,传统机器学习力场多聚焦原子级相互作用,而电子密度作为连续场数据需要开发新型几何深度学习架构来捕捉其量子特征;在构建过程层面,电子密度计算依赖耗时的一性原理DFT方法,数据生成需平衡计算精度(采用高阶杂化泛函)与规模效益(优化B3LYP计算参数),同时需解决硫原子等特殊元素的基组选择、自旋多重态处理等技术难点。此外,数据存储面临电子密度点云数量级(平均每个分子超原子数4个数量级)带来的存储挑战,需设计智能网格采样策略。
常用场景
经典使用场景
在分子建模和量子化学领域,EDBench数据集为研究电子密度(ED)在分子力场(MFFs)中的作用提供了丰富的数据支持。该数据集通过提供大规模的电子密度数据,使得研究人员能够深入探索电子分布对分子相互作用的影响。经典使用场景包括利用EDBench进行电子密度预测、分子结构检索以及量子化学性质的计算,这些应用显著提升了分子力场的准确性和泛化能力。
衍生相关工作
EDBench数据集衍生了一系列经典研究工作,包括基于电子密度的几何深度学习模型和点云处理方法。例如,HGEGNN模型通过结合异构图神经网络和等变图神经网络,实现了从分子结构到电子密度的高效预测。此外,PointVector和X-3D等点云模型在EDBench上的表现展示了电子密度数据在分子表示学习中的潜力。这些工作不仅验证了EDBench的科学价值,还为未来开发更先进的电子尺度建模方法奠定了基础。
数据集最近研究
最新研究方向
近年来,EDBench数据集在分子建模领域引起了广泛关注,特别是在电子密度(ED)驱动的机器学习力场(MLFFs)研究中。该数据集通过提供大规模、高质量的电子密度数据,填补了现有分子机器学习力场在电子尺度建模上的空白。前沿研究方向主要集中在利用ED数据提升量子化学性质预测的准确性、开发跨模态检索方法以实现分子结构与电子密度之间的高效映射,以及探索基于深度学习的电子密度生成技术以替代传统耗时的密度泛函理论(DFT)计算。这些研究不仅推动了分子力场的微观电子行为理解,还为药物发现和材料科学提供了新的计算工具。EDBench的发布为相关领域的研究奠定了坚实基础,促进了电子尺度建模的快速发展。
相关研究论文
  • 1
    EDBench: Large-Scale Electron Density Data for Molecular Modeling湖南大学计算机科学与电子工程学院, 华东师范大学生命科学学院, 湖南大学材料科学与工程学院, 中国科学技术大学, 西湖大学, 东方技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作