PubChemQCR
收藏arXiv2025-06-29 更新2025-06-11 收录
下载链接:
https://huggingface.co/divelab
下载链接
链接失效反馈官方服务:
资源简介:
PubChemQCR数据集是一个大规模的分子弛豫轨迹数据集,由PubChemQC项目中的原始几何优化输出数据整理而成。该数据集是目前最大的公开可用的基于DFT的小有机分子弛豫轨迹数据集,包含约350万条轨迹和超过3亿个分子构象,每个构象都标注了总能量和原子力,适合用于训练和评估机器学习原子间势能模型。
The PubChemQCR dataset is a large-scale molecular relaxation trajectory dataset compiled from the raw geometry optimization output data of the PubChemQC project. This dataset is currently the largest publicly available DFT-based relaxation trajectory dataset for small organic molecules, containing approximately 3.5 million trajectories and over 300 million molecular conformations. Each conformation is annotated with total energy and atomic force, making it suitable for training and evaluating machine learning interatomic potential models.
提供机构:
德克萨斯A&M大学
创建时间:
2025-06-29
搜集汇总
数据集介绍

构建方式
该数据集通过数值模拟方法生成,采用HyBurn代码求解可压缩Navier-Stokes方程,模拟了超音速流体的动态行为。具体构建过程包括两个主要场景:煤尘爆炸和圆形爆炸。煤尘爆炸场景模拟了气体与煤尘颗粒的多相流动,通过变化初始冲击波强度和颗粒直径生成100个案例;圆形爆炸场景模拟了二维圆形高压区域的冲击波传播,通过变化初始压力比生成99个案例。所有模拟均采用自适应网格细化(AMR)技术,时间步长通过CFL条件动态调整,最终数据经过时间粗化处理,粗化因子达500倍。
特点
数据集包含超音速流动特有的物理现象,如激波、膨胀波和湍流结构,具有显著的时间尺度变化特性。煤尘爆炸数据包含气体速度、温度场和体积分数等多相流场变量;圆形爆炸数据则包含速度、密度和温度场等变量。所有数据均在非均匀时间网格上采样,充分保留了高梯度区域的瞬态特征。数据集的空间分辨率经过优化处理,煤尘爆炸数据为104×104网格,圆形爆炸数据为128×128网格,在计算效率和分辨率之间取得了良好平衡。
使用方法
该数据集专为评估自适应时间步长的机器学习模型设计,建议采用两阶段框架进行使用。第一阶段训练神经网络CFL模型预测时间步长,第二阶段训练时间步长条件化的神经求解器推进流场。使用时应将预测结果与真实数据进行时间对齐,可采用线性插值方法。评估指标建议包括:各物理场的Pearson相关系数、平均流场误差、湍流动能误差等。对于煤尘爆炸数据,需特别注意稀疏体积分数场的特殊处理。数据集支持多种神经网络架构的测试,包括U-Net、FNO等,并提供了不同时间步长条件化策略的对比基准。
背景与挑战
背景概述
两个超音速流数据集由德克萨斯A&M大学的研究团队于2025年创建,旨在解决高速流体动力学建模中的自适应时间步长问题。该数据集聚焦于超音速(马赫数1-5)和高超音速(马赫数>5)流场中激波、膨胀波等瞬态现象的精确捕捉,填补了机器学习在可压缩流场建模的研究空白。作为首个针对高速流动的机器学习专用数据集,其通过经典CFD求解器生成的数值解为基准,为ShockCast框架的验证提供了重要支撑,推动了计算流体力学与深度学习的交叉创新。
当前挑战
该数据集面临双重挑战:在领域层面,需解决超音速流场中激波等间断现象导致的非线性动力学难题,传统均匀时间步长方法难以兼顾计算效率与精度;在构建层面,需克服多物理场耦合(气固两相流)、时空多尺度特性(激波与湍流共存)带来的数据生成复杂性,以及神经网络在粗化网格上保持物理一致性的难题。此外,经典CFL条件在神经网络时空离散化场景下的适应性重构,也是数据集构建的核心技术挑战。
常用场景
经典使用场景
在计算流体动力学领域,超音速流动的数值模拟一直面临着时间步长自适应调整的挑战。该数据集通过提供包含冲击波、膨胀扇等典型超音速现象的详细流场数据,为研究人员开发基于机器学习的自适应时间步长算法提供了关键基准。数据集特别适用于验证神经网络在捕捉激波不连续性和强压缩效应方面的能力,为开发新一代计算流体力学求解器奠定了基础。
解决学术问题
该数据集有效解决了超音速流动数值模拟中的关键科学问题:传统均匀时间步长方法在激波区域需要极小步长导致计算成本激增,而在平滑区域又造成计算资源浪费。通过提供精确的非均匀时间步长参考解,数据集支持开发能够自动识别流场特征并动态调整时间步长的机器学习模型,显著提升了计算效率与精度之间的平衡能力。
衍生相关工作
基于该数据集开发的ShockCast框架催生了一系列创新性研究,包括融合神经ODE的时序预测方法、专家混合网络架构等。这些工作显著推进了物理信息神经网络在可压缩流动中的应用边界,启发了后续研究者将类似方法扩展到湍流燃烧模拟、等离子体动力学等更复杂的多物理场耦合问题,形成了计算流体力学与机器学习交叉研究的新范式。
以上内容由遇见数据集搜集并总结生成



