arungovindneelan/openfoam-Agent-Dataset

Name: arungovindneelan/openfoam-Agent-Dataset
Creator: arungovindneelan
Published: 2026-04-25 02:44:32
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/arungovindneelan/openfoam-Agent-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含自然语言CFD提示与已验证、收敛的OpenFOAM v2412案例文件配对的数据集。数据集提供了两种格式：per_file和per_case_chat，分别用于不同的用途。数据集包含780个验证过的运行案例，覆盖了多种求解器、几何形状和物理机制。每个案例都经过实际求解器运行验证，确保收敛和质量分数≥0.5。数据集旨在用于微调代码/指令LLMs、作为CFD代理的RAG知识库以及基准测试OpenFOAM感知代码模型。

A dataset of natural-language CFD prompts paired with validated, converged OpenFOAM v2412 case files. The dataset ships in two formats: per_file and per_case_chat, each serving different purposes. It includes 780 validated runs across various solvers, geometries, and physics regimes. Every case was verified by running the solver to convergence with a quality score ≥ 0.5. The dataset is intended for fine-tuning code/instruction LLMs, serving as a RAG knowledge base for CFD agents, and benchmarking OpenFOAM-aware code models.

提供机构：

arungovindneelan

搜集汇总

数据集介绍

构建方式

该数据集源自一套名为foamllm3 agent的自动化管道，首先构建了一个包含约250个案例、每个案例配以2至4种不同表述的提示词目录，用于提供自然语言请求与基准CFD参数。随后，借助确定性案例编写器根据这些参数生成OpenFOAM v2412格式的字典文件，此过程不依赖大语言模型以测试案例编写器的可靠性。每个生成的案例均在沙盒工作目录中利用simpleFoam、icoFoam等求解器进行完整执行，仅保留那些成功收敛的运行结果。最终，通过评分系统对收敛案例进行残差衰减、质量守恒及边界条件合理性评估，生成0至1之间的质量分数，只有分数不低于0.5的案例得以收录。

特点

该数据集呈现两大核心特点：其一为双重粒度结构，提供per_file与per_case_chat两种配置，分别以单个OpenFOAM字典文件为单位和以自然语言提示与完整案例对话为单位，前者包含7211条记录用于FoamGPT风格的逐文件微调，后者包含402条记录适用于端到端的监督微调；其二为严格的验证机制，所有收录案例均经过实际求解器运行验证并满足收敛条件，且附有质量评分，确保每条记录均为可运行、可复现的OpenFOAM v2412设置。涵盖的求解器包括simpleFoam、pimpleFoam、interFoam等九种，覆盖层流、RANS湍流、不可压缩稳态与瞬态、可压缩流动、浮力驱动流及两相VOF等多种物理场景，几何类型涉及顶盖驱动流、管流、翼型等典型形状。

使用方法

该数据集可通过HuggingFace的datasets库便捷加载，使用load_dataset函数指定配置名称‘per_file’或‘per_case_chat’即可分别获取逐文件或全对话格式的数据。per_file配置适用于FoamGPT风格的逐文件补全任务，其每条记录包含案例名称、物理域、求解器、文件夹路径、文件名、文件具体内容及用户需求等字段，适合用于指令微调或代码生成模型的训练。per_case_chat配置则直接提供符合Qwen聊天模板的文本字段，可无缝接入TRL的SFTTrainer进行监督微调，每条记录还包含质量评分用于筛选。此外，该数据集亦可作为RAG知识库支持CFD代理，或作为OpenFOAM代码模型的基准测试数据，在加载后根据字段分词、模板化处理后即可进行模型训练或评估。

背景与挑战

背景概述

在计算流体力学领域，OpenFOAM作为一款开源软件，被广泛应用于学术研究与工程实践中，然而其复杂的字典文件配置与参数设置对用户构成了显著的知识壁垒。为此，Neelan Arun Govind于2026年构建了openfoam-Agent-Dataset，该数据集包含780次验证通过的计算案例，覆盖从层流到RANS湍流、不可压缩至可压缩流动、单相至两相VOF等多类物理场景。通过将自然语言提示与经过实际求解器收敛验证的OpenFOAM v2412案例文件配对，该数据集为大型语言模型在科学计算代码生成任务中的微调提供了关键资源，推动了自动化计算流体力学工作流的发展。

当前挑战

该数据集面临的核心挑战包括：1）领域问题层面，计算流体力学案例生成需兼顾物理准确性、数值稳定性与案例多样性，传统手工配置效率低下且易出错，亟需自动化方法；2）构建过程中，复杂物理场景如可压缩瞬态流动的数值稳定性脆弱，导致rhoPimpleFoam等求解器案例（仅29个）收敛困难、代表性不足；3）几何形态局限于简单的原始体素网格，缺乏工业级CAD导入及自适应网格加密支持，限制了数据集的工程适用性；4）所有案例均基于OpenFOAM v2412语法构建，对早期或Foundation版本需额外适配，且验证窗口较短，无法保证长期时间稳定性。

常用场景

经典使用场景

在计算流体力学与自然语言处理的交叉前沿，openfoam-Agent-Dataset为大型语言模型的领域微调提供了高质量的训练素材。该数据集包含经过实际求解器验证并收敛的OpenFOAM v2412算例文件，每个样本均由自然语言描述的计算流体动力学需求与对应的完整算例配置组成。经典使用方式涵盖两种粒度：一是按文件粒度进行逐字典文件的补全训练，适用于FoamGPT风格的代码生成模型；二是按完整算例粒度组织为对话格式，可直接用于监督微调，使得语言模型能够端到端地从用户需求生成一整套可运行的OpenFOAM算例。这种设计兼顾了细粒度代码补全与粗粒度任务规划两种典型范式，为计算流体力学领域的智能代码生成奠定了坚实的数据基础。

解决学术问题

该数据集精准回应了计算流体力学自动化建模中的核心学术挑战，即如何弥合自然语言描述与领域特定代码之间的语义鸿沟。传统上，构建OpenFOAM算例需要研究者深入理解求解器选取、离散格式配置、边界条件定义等数十个参数的专业知识，这构成了非专家用户入门的高昂壁垒。openfoam-Agent-Dataset通过提供310个不同算例、涵盖7种求解器与多种物理场景的已验证样本，使得语言模型能够学习从用户需求到具体配置文件的映射关系。这有效支撑了对代码生成模型在科学计算领域泛化能力的系统性评估，推动了对大语言模型在结构化文本生成、领域知识内化与数值计算可靠性等学术问题上的深入研究。

衍生相关工作

基于该数据集的独特价值，已衍生出一系列具有影响力的经典工作。Foam-Agent研究首次提出了自动化计算流体动力学工作流的智能体框架，将大语言模型与OpenFOAM求解管线深度集成，成为该领域的奠基性工作。随后，FoamGPT数据集采用了与之兼容的按文件粒度模式，推动了OpenFOAM代码生成任务的标准基准建立。研究者还围绕该数据集探索了检索增强生成范式在计算流体力学知识库中的应用，利用自包含的提示-算例对作为领域知识锚点，显著提升模型在复杂场景下的生成稳定性。此外，数据集中多种求解器与物理场景的平衡分布，催生了对科学计算领域代码生成模型在跨任务泛化能力与数值收敛性预测方面的系列评估研究，为后续更大规模、更复杂几何的自动化算例生成工作提供了重要的方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集