flow_around_cylinder

github2023-12-21 更新2024-05-31 收录

下载链接：

https://github.com/at-aaims/DataSiftML

下载链接

链接失效反馈

官方服务：

资源简介：

用于开发机器学习代理模型的流体动力学最优子采样研究的数据框架。

A data framework for the study of optimal subsampling in fluid dynamics for the development of machine learning agent models.

创建时间：

2023-09-26

原始信息汇总

数据集概述

数据来源

数据集源自OpenFOAM模拟，原始数据可从此链接获取。

数据处理

在线版本中，额外计算了力和单元中心。
数据集可通过解压data.tgz文件获取。

数据集操作

提供了多种子采样方法，包括比例子采样、随机子采样、全数据集采样等。
使用python subsample_maxent.py等脚本进行数据子采样，参数如--path, --target, -ns, -nc等用于指定路径、目标、样本数和聚类数。
支持通过--subsample参数选择不同的子采样方法，如equal, random-weighted等。
使用--dtype参数指定数据类型，如interpolated, csv等。

数据集应用

数据集用于机器学习模型的训练和验证，如通过python train.py脚本进行神经网络训练。
支持时间序列预测，通过设置--window参数进行窗口样本的子采样，并使用LSTM架构进行训练。

数据集可视化

通过ffmpeg命令创建结果视频，用于展示maxent.py的输出。

注意事项

更改特征、目标、窗口或数据类型定义后，需删除snapshots/raw_data.npz文件以避免错误或不正确的结果。
为复现AI4S论文中的图8结果，需运行特定命令多次并平均结果。

搜集汇总

数据集介绍

构建方式

flow_around_cylinder数据集基于OpenFOAM模拟生成，原始数据来源于GitHub上的公开资源。在此基础上，研究者进一步计算了流体力学中的力和单元中心数据，并通过一系列Python脚本对数据进行处理和子采样。数据集的构建过程包括从OpenFOAM模拟结果中提取关键物理量，并通过最大熵（MaxEnt）方法或随机方法对数据进行子采样，以优化机器学习模型的训练效果。

特点

该数据集的特点在于其高度结构化的流体动力学模拟数据，涵盖了圆柱绕流问题中的关键物理量，如阻力（drag）和压力（pressure）。数据集提供了多种子采样方法，包括最大熵子采样、随机子采样以及基于k近邻（kNN）的采样策略，能够有效支持机器学习模型的训练与验证。此外，数据集还支持对三维表面安装立方体案例的分析，并提供了时间序列预测的功能，适用于多种流体动力学研究场景。

使用方法

使用flow_around_cylinder数据集时，首先需要配置Python环境并安装相关依赖。通过运行提供的Python脚本，用户可以选择不同的子采样方法（如最大熵子采样或随机子采样）对数据进行处理。数据集支持多种输入格式，包括OpenFOAM生成的原始数据和CSV文件。用户还可以通过Docker容器运行OpenFOAM，并使用ParaView进行数据插值处理。对于时间序列预测任务，数据集提供了LSTM架构的训练支持，用户可以通过指定时间窗口参数生成序列数据并进行模型训练。

背景与挑战

背景概述

flow_around_cylinder数据集源于流体动力学领域的研究，旨在通过数值模拟方法研究圆柱体周围的流动特性。该数据集由Brewer等人在2023年提出，并在第4届人工智能与机器学习科学应用国际研讨会（AI4S）上发表。数据集的核心研究问题是通过最优子采样技术开发机器学习代理模型，以高效捕捉流体动力学中的关键特征。其数据来源于OpenFOAM模拟，并通过计算力和单元中心点进一步丰富。该数据集为流体动力学与机器学习的交叉研究提供了重要支持，推动了高维数据降维与模型优化的前沿探索。

当前挑战

flow_around_cylinder数据集在解决流体动力学建模问题时面临多重挑战。首先，流体动力学模拟生成的数据通常具有高维度和复杂性，如何从中提取关键特征以构建高效的代理模型是一个核心难题。其次，数据集的构建过程中需要对OpenFOAM模拟结果进行后处理，包括计算力和单元中心点，这一过程对计算资源和算法精度提出了较高要求。此外，最优子采样技术的实现需要平衡采样效率与模型性能，这对算法的鲁棒性和可扩展性提出了挑战。最后，数据集的多样性和规模对机器学习模型的训练和泛化能力提出了更高要求，尤其是在处理时间序列预测任务时，如何有效捕捉流体的动态特性仍需进一步探索。

常用场景

经典使用场景

在流体动力学研究中，flow_around_cylinder数据集被广泛应用于模拟圆柱体周围的流动现象。通过OpenFOAM仿真生成的数据，研究者能够深入分析流体在圆柱体周围的压力分布、速度场以及湍流特性。该数据集为开发机器学习代理模型提供了高质量的输入数据，尤其是在优化子采样策略和训练神经网络模型方面具有重要价值。

衍生相关工作

基于flow_around_cylinder数据集，研究者开发了多种经典工作。例如，Brewer等人提出的最大熵子采样方法为流体动力学数据的降维提供了新思路。此外，该数据集还催生了基于LSTM架构的时间序列预测模型，为流体动力学中的瞬态现象分析提供了有力工具。这些衍生工作不仅推动了流体动力学与机器学习的交叉研究，还为相关领域的工程应用奠定了理论基础。

数据集最近研究