EDBench
收藏github2025-05-19 更新2025-05-22 收录
下载链接:
https://github.com/HongxinXiang/EDBench
下载链接
链接失效反馈官方服务:
资源简介:
EDBench是一个基于PCQM4Mv2标准的大规模、高质量电子密度数据集,包含超过330万个分子的电子密度数据,用于支持电子尺度学习的基准测试。
EDBench is a large-scale, high-quality electron density dataset built upon the PCQM4Mv2 standard. It encompasses electron density data for more than 3.3 million molecules, acting as a benchmark to support electron-scale learning research.
创建时间:
2025-05-10
原始信息汇总
EDBench: 大规模电子密度数据集概述
1. 数据集简介
- 名称: EDBench
- 类型: 电子密度(ED)数据集
- 规模: 包含超过330万分子的DFT计算电子密度
- 基础: 基于PCQM4Mv2标准构建
- 应用领域: 药物发现、材料科学
2. 核心特点
- 数据质量: 高精度DFT计算的电子密度
- 理论依据: 基于Hohenberg-Kohn定理
- 创新点: 填补了分子机器学习力场(MLFFs)在电子密度层面的空白
3. 基准任务
3.1 预测任务
- ED5-EC: 6种能量成分预测
- ED5-OE: 7种轨道能量预测
- ED5-MM: 4种多极矩预测
- ED5-OCS: 开闭壳层系统二分类
3.2 检索任务
- ED5-MER: 分子结构与电子密度的跨模态检索
3.3 生成任务
- ED5-EDP: 从分子结构生成电子密度
4. 数据结构
- 文件格式:
- 原始数据:
.csv总结文件 +.cube格式电子密度文件 - 处理数据:
.pkl格式
- 原始数据:
- 通用字段:
- 分子索引、SMILES、规范SMILES、骨架分割、随机分割
- 任务特定字段:
- 预测任务: 标签值
- 检索任务: 负样本索引
5. 获取方式
- 数据存储: Harvard Dataverse
- 许可证: MIT开源许可证
- 论文: arXiv:2505.09262
6. 最新动态
- 2025/05/13: 上传了X-3D和PointVector的预测任务代码
- 2025/05/10: 仓库初始化
搜集汇总
数据集介绍

构建方式
EDBench数据集基于PCQM4Mv2标准构建,通过密度泛函理论(DFT)计算了超过330万种分子的电子密度(ED)。该数据集采用严格的量子化学计算方法,确保电子密度数据的准确性和可靠性。数据生成过程中,每个分子均经过结构优化和电子密度网格计算,生成包括立方体格式的电子密度文件、分子结构文件以及相关的量子化学性质文件。数据集的构建充分考虑了分子多样性和化学空间的覆盖,为电子尺度下的机器学习研究提供了坚实基础。
特点
EDBench数据集的核心特点在于其大规模和高精度的电子密度数据,涵盖了330多万个分子,为电子尺度下的机器学习研究提供了前所未有的资源。数据集不仅包含电子密度信息,还提供了多种量子化学性质,如能量成分、轨道能量、多极矩等,支持多任务学习。此外,数据集设计了预测、检索和生成三大类基准任务,涵盖了电子密度在分子建模中的多种应用场景。数据的组织采用标准化的目录结构和文件格式,便于研究人员快速上手和使用。
使用方法
EDBench数据集的使用方法灵活多样,研究人员可以根据需求选择不同的基准任务。对于预测任务,可以从电子密度数据中预测量子化学性质;对于检索任务,可以实现分子结构与电子密度之间的跨模态检索;对于生成任务,则可以从分子结构生成电子密度。数据集提供了详细的目录结构和文件格式说明,包括CSV摘要文件和立方体格式的电子密度文件。用户可以通过提供的代码和指令快速运行基准任务,支持多种机器学习框架和算法。数据集还提供了训练集、验证集和测试集的划分,便于模型训练和评估。
背景与挑战
背景概述
EDBench是由Hongxin Xiang等人于2025年推出的一个大规模电子密度数据集,旨在填补分子机器学习力场(MLFFs)中电子密度(ED)数据稀缺的空白。基于PCQM4Mv2标准,该数据集包含超过330万种分子的精确密度泛函理论(DFT)计算电子密度,为电子尺度学习提供了重要资源。根据Hohenberg-Kohn定理,电子密度唯一确定多体量子系统的基态性质,这一理论基础赋予了EDBench在药物发现和材料科学领域的深远影响力。该数据集由一系列基准任务组成,包括量子化学性质预测、跨模态检索以及电子密度生成,显著降低了DFT计算成本,推动了电子驱动研究的发展。
当前挑战
EDBench面临的挑战主要体现在两个方面:领域问题挑战与构建过程挑战。在领域问题方面,电子密度作为量子化学的核心物理量,其高维度和复杂量子效应的精确表征对机器学习模型提出了严峻考验,特别是在保持预测精度与计算效率平衡方面。构建过程中的挑战则源于DFT计算本身的高计算成本,以及处理330万分子产生的庞大数据量对存储和计算基础设施的极端要求。此外,跨模态检索任务需要解决分子结构与电子密度之间的非线性映射问题,而生成任务则需克服三维电子密度场的高保真重建难题。
常用场景
经典使用场景
在分子建模领域,EDBench数据集为研究人员提供了大规模、高质量的电子密度数据,这些数据基于PCQM4Mv2标准,涵盖了超过330万个分子。经典使用场景包括利用电子密度(ED)进行量子化学性质的预测、分子结构与电子密度之间的跨模态检索以及从分子结构生成电子密度。这些任务不仅推动了电子尺度上的深度学习研究,还为药物发现和材料科学提供了重要支持。
实际应用
EDBench数据集在实际应用中具有广泛的价值。在药物发现领域,研究人员可以利用电子密度数据更准确地预测分子的活性和毒性,从而加速药物筛选过程。在材料科学中,电子密度数据有助于设计新型功能材料,优化其电子和光学性能。此外,EDBench还为跨模态检索和生成任务提供了基准,推动了分子建模与人工智能的深度融合。
衍生相关工作
EDBench数据集衍生了多项经典研究工作,特别是在电子密度预测、跨模态检索和生成任务方面。例如,基于EDBench的研究提出了X-3D和PointVector等模型,用于高效预测量子化学性质。此外,该数据集还启发了分子结构与电子密度之间的跨模态检索方法,以及从分子结构生成电子密度的生成模型。这些工作不仅拓展了电子密度在分子建模中的应用,还为相关领域的研究提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



