OpenFF QCArchive Dataset
收藏github2024-04-03 更新2024-05-31 收录
下载链接:
https://github.com/openforcefield/qca-dataset-submission
下载链接
链接失效反馈官方服务:
资源简介:
所有通过此仓库提交到QCArchive的数据集都遵循数据集生命周期。数据集必须通过拉取请求提交,并需符合提交标准。
All datasets submitted to QCArchive through this repository adhere to the dataset lifecycle. Datasets must be submitted via pull requests and must comply with the submission standards.
创建时间:
2019-06-10
原始信息汇总
数据集概述
数据集生命周期
所有提交至QCArchive的数据集遵循数据集生命周期。
提交标准
数据集提交需遵循STANDARDS.md中规定的标准,并通过拉取请求(pull requests)方式提交。
数据集状态
数据集状态通过不同的标签和状态表示,包括:
- Complete: 所有默认规格的任务已完成。
- Error: 数据集中存在错误,可能阻止任务完成。
- Running: 数据集正在运行,可能有未完成的任务。
数据集列表
| QCArchive Dataset | Folder | Description | Elements | Status |
|---|---|---|---|---|
OpenFF Optimization Set 1 |
2019-07-09-OpenFF-Optimization-Set | Hessian calculations. | Cl, S, C, F, O, H, N | |
OpenFF NCI250K Boron 1 |
2019-07-05 OpenFF NCI250K Boron 1 | Hessian calculations. | Cl, Br, S, C, F, B, O, H, N | |
OpenFF Discrepancy Benchmark 1 |
2019-07-05 eMolecules force field discrepancies 1 | Hessian calculation. | Cl, Br, S, C, F, P, I, O, H, N | |
OpenFF Gen 2 Opt Set 1 Roche |
2020-03-20-OpenFF-Gen-2-Optimization-Set-1-Roche | Hessian calculation. | Cl, S, C, F, O, H, N | |
OpenFF Gen 2 Opt Set 2 Coverage |
2020-03-20-OpenFF-Gen-2-Optimization-Set-2-Coverage | Hessian calculations. | Cl, Br, S, C, F, P, I, O, H, N | |
OpenFF Gen 2 Opt Set 3 Pfizer Discrepancy |
2020-03-20-OpenFF-Gen-2-Optimization-Set-3-Pfizer-Discrepancy | Hessian calculations. | Cl, F, C, S, O, H, N | |
OpenFF Gen 2 Opt Set 4 eMolecules Discrepancy |
2020-03-20-OpenFF-Gen-2-Optimization-Set-4-eMolecules-Discrepancy | Hessian calculations. | Cl, Br, S, C, F, P, I, O, H, N | |
OpenFF Gen 2 Opt Set 5 Bayer |
2020-03-20-OpenFF-Gen-2-Optimization-Set-5-Bayer | Hessian calculations. | Si, Cl, Br, F, C, S, O, H, N | |
OpenFF VEHICLe Set 1 |
2019-07-02 VEHICLe optimization dataset | Hessian calculations. | S, C, O, H, N | |
SMIRNOFF Coverage Set 1 |
2019-06-25-smirnoff99Frost-coverage | Hessian calculations. | Cl, Br, S, C, F, P, I, O, H, N | |
OpenFF ESP Fragment Conformers v1.0 |
2022-01-16-OpenFF-ESP-Fragment-Conformers-v1.0 | ESP Calculations | N, Cl, C, H, P, Br, O, F, S | |
OpenFF Theory Benchmarking Single Point Energies v1.0 |
2021-09-06-theory-bm-single-points | Single Point Energy dataset for the final optimized geometries from MP2/heavy-aug-cc-pVTZ torsiondrives. | Cl, F, C, S, O, H, N, P | |
TorsionNet500 Single Points Dataset v1.0 |
2021-11-09-TorsionNet500-single-points | Single point energies of final geometries of TorsionNet500 dataset. | H, O, F, S, N, Cl, C | |
SPICE DES Monomers Single Points Dataset v1.1 |
2021-11-15-QMDataset-DES-monomers-single-points | Single point energy calculation of DES monomers. | I, C, Br, P, Cl, H, S, O, F, N | |
SPICE Solvated Amino Acids Single Points Dataset v1.1 |
2021-11-08-QMDataset-Solvated-Amino-Acids-single-points | Single point energy calculation of solvated amino acids. | N, S, O, C, H | |
SPICE DES370K Single Points Dataset v1.0 |
2021-11-08-QMDataset-DES370K-single-points | SPICE single point dataset for ML applications. | N, O, Mg, H, F, K, Br, Na, P, Cl, I, Ca, S, Li, C | |
SPICE DES370K Single Points Dataset Supplement v1.0 |
2022-02-18-QMDataset-DES370K-single-points-supplement | SPICE single point dataset for ML applications. | F, H, Cl, S, I, Br, N, Li, O, C, Na | |
SPICE Dipeptides Single Points Dataset v1.2 |
2021-11-08-QMDataset-Dipeptide-single-points | SPICE single point dataset for ML applications. | C, N, O, H, S | |
SPICE PubChem Set 1 Single Points Dataset v1.2 |
2021-11-08-QMDataset-pubchem-set1-single-points | SPICE single point dataset for ML applications. | O, Cl, N, C, P, Br, S, F, I, H | |
SPICE PubChem Set 2 Single Points Dataset v1.2 |
2021-11-09-QMDataset-pubchem-set2-single-points | SPICE single point dataset for ML applications. | H, P, C, Cl, Br, N, F, S, O, I | |
SPICE PubChem Set 3 Single Points Dataset v1.2 |
2021-11-09-QMDataset-pubchem-set3-single-points | SPICE single point dataset for ML applications. | N, C, S, Cl, Br, F, P, I, H, O | |
SPICE PubChem Set 4 Single Points Dataset v1.2 |
2021-11-09-QMDataset-pubchem-set4-single-points | SPICE single point dataset for ML applications. | N, S, Br, O, C, F, H, I, Cl, P | |
SPICE PubChem Set 5 Single Points Dataset v1.2 |
2021-11-09-QMDataset-pubchem-set5-single-points | SPICE single point dataset for ML applications. | F, H, S, Br, Cl, N, P, C, I, O | |
SPICE PubChem Set 6 Single Points Dataset v1.2 |
2021-11-09-QMDataset-pubchem-set6-single-points | SPICE single point dataset for ML applications. | H, P, C, Cl, Br, N, F, S, O, I |
数据集提交流程
- 克隆仓库并创建新分支。
- 在
submissions/目录下创建新目录,用于存放提交的文件。 - 使用conda环境准备提交所需的工具。
- 选择合适的笔记本和README模板。
搜集汇总
数据集介绍

构建方式
OpenFF QCArchive数据集的构建过程遵循严格的提交标准和生命周期管理。用户首先需要克隆该项目的GitHub仓库,并创建一个新的分支以提交数据集。提交过程中,用户需在指定的目录中添加所有相关文件,包括输入文件、生成数据集的Jupyter笔记本、PDF文件、SMI文件以及压缩后的JSON文件。提交后,系统会自动进行验证,确保数据集的完整性和准确性。数据集通过验证后,将被合并并提交至QCArchive,随后在OpenFF管理的计算资源上进行计算。
特点
OpenFF QCArchive数据集的特点在于其高度结构化的生命周期管理和自动化验证流程。每个数据集都经过严格的标准化处理,确保数据的质量和一致性。数据集涵盖了多种分子优化和计算任务,如Hessian计算、波函数计算等,适用于广泛的分子动力学和量子化学研究。此外,数据集支持计算扩展,允许用户在已有数据集的基础上重新计算,从而提高了数据集的灵活性和可扩展性。
使用方法
使用OpenFF QCArchive数据集时,用户首先需要克隆项目仓库并创建一个新的分支。随后,用户需在指定的目录中添加数据集的相关文件,并通过Jupyter笔记本生成数据集。提交数据集后,系统会自动进行验证,确保数据集的完整性和准确性。数据集通过验证后,用户可以通过QCArchive平台访问和使用这些数据,进行分子优化、Hessian计算等任务。此外,用户还可以通过计算扩展功能,在已有数据集的基础上重新计算,以满足不同的研究需求。
背景与挑战
背景概述
OpenFF QCArchive数据集是由Open Force Field Initiative(OpenFF)创建的一个专注于分子力场优化的量子化学计算数据集。该数据集的核心研究问题在于通过高精度的量子化学计算,优化和验证分子力场参数,以提高分子模拟的准确性。OpenFF QCArchive数据集自2019年首次发布以来,已成为分子力场开发领域的重要资源,广泛应用于药物设计、材料科学和生物分子模拟等领域。该数据集的创建得到了多个研究机构和计算化学专家的支持,其影响力不仅体现在数据规模上,更在于其推动了分子力场参数的标准化和透明化。
当前挑战
OpenFF QCArchive数据集在解决分子力场优化问题时面临多重挑战。首先,量子化学计算的高计算成本限制了数据集的扩展速度,尤其是在处理复杂分子体系时,计算资源的消耗显著增加。其次,数据集的构建过程中,如何确保计算结果的准确性和一致性是一个关键问题,尤其是在不同计算方法和理论水平之间的对比中,误差的累积可能导致力场参数的偏差。此外,数据集的提交和验证流程较为复杂,要求提交者具备一定的技术背景,这在一定程度上限制了数据集的广泛参与和贡献。最后,数据集的长期维护和更新也面临挑战,尤其是在计算资源有限的情况下,如何高效地处理错误计算和优化计算流程是一个持续需要解决的问题。
常用场景
经典使用场景
OpenFF QCArchive数据集在分子力场优化和计算化学领域具有广泛的应用。该数据集通过提供高质量的分子几何优化数据,支持研究人员进行分子力场的开发和验证。其经典使用场景包括分子构象优化、能量计算以及分子间相互作用的研究,为分子动力学模拟和量子化学计算提供了坚实的基础。
衍生相关工作
OpenFF QCArchive数据集衍生了许多经典的研究工作,特别是在分子力场开发和验证领域。基于该数据集,研究人员开发了多个开源的分子力场模型,如OpenFF Sage力场。此外,该数据集还被用于验证和改进现有的力场模型,推动了计算化学领域的创新和发展。这些衍生工作不仅提升了分子力场的准确性,还为分子动力学模拟和量子化学计算提供了更可靠的工具。
数据集最近研究
最新研究方向
在分子力场优化和量子化学计算领域,OpenFF QCArchive数据集的最新研究方向聚焦于通过高效的计算扩展机制提升数据集的计算效率和精度。研究者们通过引入新的计算规范(QCSpec),能够在现有数据集的基础上快速进行重新计算,从而验证不同理论水平下的分子性质。这一方法不仅显著减少了计算资源的消耗,还为分子力场的优化提供了更为精确的数据支持。此外,数据集的生命周期管理机制通过自动化流程确保了数据提交、验证和计算的透明性与可追溯性,进一步推动了分子力场研究的前沿发展。
以上内容由遇见数据集搜集并总结生成



