camlab-ethz/ACE
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/camlab-ethz/ACE
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Allen-Cahn方程的轨迹,模拟在单位正方形上,时间达到T=0.0002,并以均匀的空间和时间间隔保存。数据集包含15000条轨迹,每条轨迹有20个时间步长,空间维度为128x128。数据集被分割为14700条训练轨迹、60条验证轨迹和240条测试轨迹。
该数据集包含Allen-Cahn方程的轨迹,模拟在单位正方形上,时间达到T=0.0002,并以均匀的空间和时间间隔保存。数据集包含15000条轨迹,每条轨迹有20个时间步长,空间维度为128x128。数据集被分割为14700条训练轨迹、60条验证轨迹和240条测试轨迹。
提供机构:
camlab-ethz
原始信息汇总
数据集概述
数据集描述
本数据集包含Allen-Cahn方程的轨迹数据,详见arXiv论文。
数据维度
数据集为一个NetCDF文件,包含名为solution的单一变量,其维度如下:
- 轨迹数量:15000
- 时间步数:20
- x维度:128
- y维度:128
模拟在单位正方形区域进行,直至T=0.0002,数据在空间和时间上均匀分布。
数据分割
数据集分为训练集、验证集和测试集,具体分配如下:
- 训练集:14700条轨迹
- 验证集:60条轨迹
- 测试集:240条轨迹
下载与组装
数据集可通过huggingface-cli download等方式下载。下载后,使用提供的assemble_data.py脚本将分块数据组装成单一的NetCDF文件,使用方法如下:
bash
python assemble_data.py --input_dir . --output_file ACE.nc
搜集汇总
数据集介绍

构建方式
在偏微分方程数值模拟领域,Allen-Cahn方程作为描述相分离过程的关键模型,其高保真轨迹数据的构建至关重要。该数据集通过数值求解定义在单位正方形区域上的Allen-Cahn方程生成,模拟时间跨度至T=0.0002,并在时空域上采用均匀采样策略。最终构建的NetCDF文件包含单一变量'solution',其维度结构为15000条轨迹、20个时间步长以及128×128的空间网格分辨率,总计14700/60/240条轨迹分别划分至训练、验证与测试集。
使用方法
使用者可通过Hugging Face命令行工具`huggingface-cli download`便捷获取该数据集。下载完成后,需利用仓库提供的`assemble_data.py`脚本将分块数据整合为单一的NetCDF文件,具体执行命令为`python assemble_data.py --input_dir . --output_file ACE.nc`。整合后的文件可直接通过NetCDF库(如xarray或netCDF4)加载,进而用于构建代理模型、进行物理场预测或开展科学机器学习相关实验。
背景与挑战
背景概述
相场模型在描述材料微结构演化、流体界面动力学等复杂物理过程中扮演着核心角色,其中Allen-Cahn方程作为经典的相场控制方程,广泛应用于晶体生长、相变模拟等领域。camlab-ethz/ACE数据集由苏黎世联邦理工学院计算机辅助建模实验室于2024年创建,其核心研究问题在于为高维非线性偏微分方程的数值求解提供大规模、高保真的基准数据集。该数据集包含15000条模拟轨迹,每条轨迹在单位正方形域上记录20个时间步的128×128空间分辨率解,时间区间延伸至T=0.0002。通过系统性的时空均匀采样,该数据集为物理信息神经网络、算子学习等数据驱动方法提供了标准化的训练与验证平台,对推动科学计算与机器学习的交叉研究产生了显著影响。
当前挑战
当前数据集面临的核心挑战在于其解决领域问题的能力与构建过程的复杂性。在领域问题层面,Allen-Cahn方程固有的刚性特征与多尺度动力学特性,使得传统数值方法在捕捉界面演化细节时面临计算成本与精度的权衡,而该数据集虽提供了高分辨率时空样本,但如何从有限时间窗口的数据中泛化至长期演化行为仍是未解难题。在构建过程中,模拟需在保证数值稳定性的前提下平衡15000条轨迹的计算开销与存储效率,原始数据采用分块存储策略,需通过专用汇编脚本整合为单一NetCDF文件,这一流程对用户的计算环境与数据管理能力提出了额外要求,同时公开数据仅包含均匀采样结果,缺乏自适应网格或变时间步长等高级数值策略的对比数据,限制了其在复杂物理场景中的适用性。
常用场景
经典使用场景
在科学计算与计算物理的交叉领域中,Allen-Cahn方程作为描述相分离与界面动力学的重要偏微分方程,其数值求解与物理场演化建模一直是研究热点。camlab-ethz/ACE数据集提供了高分辨率、多时间步的二维相场轨迹,涵盖15000条样本、20个时间步长及128×128的空间网格,为监督学习与物理信息神经网络提供了理想的训练与验证基准。该数据集最经典的使用场景是作为物理驱动深度学习模型的训练集,用于学习从初始条件到完整时空演化的映射关系,从而实现对Allen-Cahn方程高效且准确的代理建模。
解决学术问题
该数据集系统性地解决了高维非线性偏微分方程数值模拟中数据稀缺与泛化能力不足的学术难题。传统数值方法虽精度高,但计算成本随网格细化呈指数增长,而现有基于数据驱动的方法常因训练数据规模有限而难以捕捉相场界面的复杂动力学行为。ACE数据集通过提供大规模、标准化、时空均匀采样的轨迹数据,使研究者能够系统评估不同神经网络架构(如卷积神经网络、神经算子)在逼近Allen-Cahn方程解时的误差特性。其意义在于为物理信息学习领域奠定了可复现、可对比的数据基础,推动了从数据驱动替代模型到物理约束学习的范式转变。
实际应用
在实际工程与材料科学领域,该数据集的应用场景聚焦于加速材料微观结构演化仿真与多尺度建模。例如,在合金相变过程中,Allen-Cahn方程用于描述晶粒生长与相分离动力学,而传统有限元方法在三维大规模模拟中耗时巨大。基于ACE数据集训练的代理模型可快速预测相场演化,为材料设计提供实时反馈。此外,该数据还可用于开发数字孪生系统中的快速预测模块,或在工业制造中优化热处理工艺参数,显著降低计算资源消耗并缩短研发周期。
数据集最近研究
最新研究方向
在当前基于物理信息的深度学习与科学计算交叉领域中,Allen-Cahn方程作为描述相分离与界面演化的重要偏微分方程,其数值模拟的精度与效率始终是前沿热点。camlab-ethz/ACE数据集提供了15000条高分辨率轨迹,覆盖128×128空间网格及20个时间步长,为训练神经网络逼近复杂非线性动力学行为提供了丰富样本。该数据集紧密关联近期关于算子学习与神经微分方程的研究浪潮,如利用傅里叶神经算子或图神经网络捕捉多尺度界面演化规律,推动材料科学中微结构演化的实时预测。其公开的标准化划分与NetCDF格式存储,显著降低了复现门槛,已成为验证新型时间序列预测模型与物理约束正则化方法的基准资源,对加速科学机器学习在计算物理中的应用具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



