five

NEP89

收藏
arXiv2025-04-30 更新2025-05-08 收录
下载链接:
https://zenodo.org/records/15299684
下载链接
链接失效反馈
官方服务:
资源简介:
NEP89是一个基于神经进化势(NEP)架构的通用模型,适用于89种化学元素的无机和有机材料的原子模拟。该数据集包含1100万个结构,通过描述符空间抽样和迭代主动学习过程从多个数据集中筛选而来,确保了数据集的多样性和可靠性。NEP89模型在预测静态和动态性质方面具有竞争力,并且比现有模型计算效率提高了3-4个数量级,使得之前无法实现的大规模原子模拟成为可能。该模型还支持在小数据集上进行微调,以快速适应特定应用。NEP89的推出标志着机器学习势能的重大进展,能够支持在各个研究领域和社区进行高性能的原子模拟。

NEP89 is a universal model based on the neuroevolutionary potential (NEP) architecture, designed for atomic simulations of inorganic and organic materials covering 89 chemical elements. This dataset contains 11 million structures, which are screened from multiple datasets via descriptor space sampling and iterative active learning processes, ensuring the diversity and reliability of the dataset. The NEP89 model delivers competitive performance in predicting both static and dynamic properties, with its computational efficiency improved by 3 to 4 orders of magnitude compared to existing models, enabling large-scale atomic simulations that were previously infeasible. Additionally, the model supports fine-tuning on small datasets to rapidly adapt to specific applications. The release of NEP89 marks a significant advancement in machine learning potentials, enabling high-performance atomic simulations across various research fields and communities.
提供机构:
渤海大学物理科学与技术学院, 香港中文大学电子工程系及材料科学与技术研究中心, 查尔姆斯理工大学物理系, 深圳技术大学未来技术学院, 深圳大学应用科学学院, 新余学院机械与电气工程学院, 北京科技大学先进材料基因组工程北京高精尖创新中心, 阿尔托大学MSP组, 芬兰卓越量子技术中心, 福州大学物理与信息工程学院, 特拉维夫大学化学学院物理化学系, 乔治华盛顿大学土木与环境工程系, 查尔姆斯理工大学可持续材料科学沃尔伦贝格倡议, 拉夫堡大学数学科学系跨学科中心
创建时间:
2025-04-30
搜集汇总
数据集介绍
main_image_url
构建方式
NEP89数据集的构建采用了先进的神经进化势能(NEP)架构,通过精心设计的迭代训练策略实现。研究团队首先从OMAT24数据集中进行描述符空间子采样,并采用类似主动学习的过程,逐步整合多个公开数据集,包括MPtrj、SPICE、ANI-1xnr等。为确保数据一致性,团队对所有数据集添加了D3色散校正,并通过能量偏移优化解决了不同数据集间的能量参考差异。最终形成的训练集涵盖89种元素的有机和无机材料,具有高度的多样性和平衡性。
特点
NEP89数据集的核心特点体现在其广覆盖性和高效性。作为首个横跨89种元素的通用势能模型,它同时涵盖有机和无机材料体系,突破了传统机器学习势能(MLP)的材料特异性限制。数据集通过描述符空间子采样技术实现了紧凑而全面的样本分布,其预测精度与主流基础模型相当,但在计算效率上较同类模型提升3-4个数量级。特别值得注意的是,该数据集支持基于小样本的微调功能,可快速适配用户特定需求。
使用方法
使用NEP89数据集时,研究人员可直接调用预训练模型进行大规模原子模拟,无需额外训练即可获得近第一性原理精度的结果。对于特定应用场景,可通过两步流程优化模型:首先利用NEP89生成模拟轨迹,随后通过主动学习筛选预测误差较大的结构进行DFT计算,将新数据与原始训练集结合进行微调。该方法已成功应用于二维材料MoSi2N4力学性能和苯晶体中子散射等案例,显著提升了专业领域的预测准确性。
背景与挑战
背景概述
NEP89是由渤海大学、香港中文大学、查尔姆斯理工大学等机构的研究团队于2025年提出的跨元素神经进化势能基础模型。该模型基于神经进化势能(NEP)架构,覆盖89种元素的无机和有机材料体系,旨在解决传统机器学习势函数(MLPs)存在的材料特异性强、计算成本高等核心问题。作为首个实现有机-无机材料统一建模的通用势函数,其训练数据集通过描述符空间子采样和主动学习策略,整合了OMAT24、MPtrj、SPICE等十余个权威材料数据库,显著拓展了原子模拟的时空尺度,为计算材料学、化学和生物分子模拟等领域提供了革命性工具。
当前挑战
该数据集构建面临三大核心挑战:1)跨材料体系一致性难题,需协调不同数据库间能量参考标准与色散作用处理方式,通过D3校正和能量偏移优化实现统一;2)数据多样性平衡问题,采用描述符空间子采样技术从1.1亿结构中筛选代表性构型,避免模型偏向特定材料类型;3)计算效率瓶颈,通过Chebyshev-Legendre多项式描述符和线性复杂度算法设计,实现比同类模型高3-4个数量级的计算速度。在应用层面需解决有机反应路径预测、蛋白质构象采样等复杂场景的精度优化问题。
常用场景
经典使用场景
NEP89数据集在材料科学和计算化学领域具有广泛的应用价值,尤其在原子尺度模拟中表现出色。该数据集通过整合89种元素的无机和有机材料数据,为研究人员提供了一个统一的框架,用于进行高精度的分子动力学模拟和量子力学计算。其经典使用场景包括复杂合金系统的力学性能预测、有机化学反应路径的模拟以及蛋白质-配体相互作用的动态分析。NEP89的高效计算能力使得大规模原子模拟成为可能,为材料设计和性能优化提供了强有力的工具。
实际应用
在实际应用中,NEP89数据集被广泛用于工业材料开发和生物分子模拟。例如,在合金设计中,NEP89可以预测多组分合金的屈服强度和相变行为,为高性能合金的研发提供理论依据。在药物发现领域,该数据集能够模拟蛋白质与配体的结合能,加速新药的筛选和优化。此外,NEP89还被用于模拟有机化学反应路径,如甲烷燃烧过程,为清洁能源技术的研究提供了重要参考。
衍生相关工作
NEP89数据集的推出催生了一系列相关研究。基于其框架,研究人员开发了多个针对特定材料的优化模型,如二维材料MoSi2N4的力学性能预测模型和苯晶体的中子散射模拟工具。这些衍生工作不仅扩展了NEP89的应用范围,还进一步验证了其在多尺度模拟中的可靠性和灵活性。此外,NEP89的成功也激励了更多关于通用机器学习势函数的研究,推动了计算材料科学的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作