PDEAgent-Bench

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/eclipse00/PDEAgent-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

PDEAgent-Bench 是一个用于评估大语言模型和AI代理在偏微分方程(PDE)求解器代码生成方面端到端能力的基准测试系统。该数据集属于文本生成任务类别，包含英语文本内容，规模小于1000个样本。作为专业领域的基准测试，它专注于PDE求解器生成任务，可用于评估AI模型在科学计算代码生成方面的性能。数据集采用CC-BY-4.0许可协议发布。

PDEAgent-Bench is a benchmark system for evaluating the end-to-end capabilities of large language models and AI agents in generating partial differential equation (PDE) solver code. This dataset belongs to the text generation task category, contains English text content, and has a scale of less than 1000 samples. As a professional domain benchmark, it focuses on PDE solver generation tasks and can be used to evaluate the performance of AI models in scientific computing code generation. The dataset is released under the CC-BY-4.0 license.

创建时间：

2026-05-07

原始信息汇总

PDEAgent-Bench 数据集概述

基本信息

数据集名称：PDEAgent-Bench
许可证：CC-BY-4.0
语言：英语
数据集大小：少于 1,000 条样本
任务类别：文本生成
标签：基准测试、偏微分方程（PDE）

数据集描述

PDEAgent-Bench 是一个用于评估大型语言模型和 AI 智能体在端到端偏微分方程（PDE）求解器代码生成能力的基准测试系统。

引用信息

该数据集正在 NeurIPS 2026 审稿中。若在研究中引用，请参考提供的 BibTeX 格式引用。

相关链接

GitHub 仓库：https://github.com/YusanX/pde-agent-bench

搜集汇总

数据集介绍

构建方式

PDEAgent-Bench是一个面向偏微分方程求解器代码生成任务的端到端评估基准系统，旨在系统性地检验大语言模型与AI代理在科学计算领域的编程能力。该数据集由来自多个研究机构的研究人员构建，整合了多种偏微分方程及其求解库，构建过程中严格遵循代码正确性、数值精度与执行效率等多维度评价标准，形成了一套涵盖问题定义、代码生成、编译运行与结果验证的完整评测流水线。

特点

PDEAgent-Bench的突出特点在于其多指标、多库的评测框架。它不仅关注生成的求解器代码在语法和功能上的正确性，更深入考察数值计算的精确度与计算资源的利用效率。数据集覆盖了多种经典偏微分方程类型，并支持包括FEniCS、deal.II在内的多个主流求解库，为评估AI模型在科学软件生态中的适应性提供了丰富且具有挑战性的测试场景。

使用方法

在使用PDEAgent-Bench时，用户可直接基于其预定义的偏微分方程问题与评测指标，将大语言模型或AI代理生成的求解器代码提交至评测系统。系统会自动完成代码的编译、运行以及结果的多维度评估，最终输出包括代码通过率、相对误差与运行时间在内的量化评分。该基准设计简洁、自动化程度高，便于研究人员快速复现对比实验，推动科学计算与人工智能的交叉研究。

背景与挑战

背景概述

偏微分方程（PDE）作为描述自然现象与工程问题的核心数学工具，其数值求解长期以来依赖专家手工编写代码，这一过程既耗时又易出错。随着大语言模型（LLM）在代码生成领域展现出的卓越能力，利用AI智能体自动生成PDE求解器代码成为极具潜力的研究方向。在此背景下，由Zhen Hang、Yushan Yashengjiang等来自多个机构的研究人员于2026年联合构建了PDEAgent-Bench基准系统，旨在系统性评估LLM及AI智能体在端到端PDE求解器代码生成中的综合表现。该基准填补了现有评估体系缺乏多指标、多库协同考量的空白，为自动科学计算领域提供了标准化测试平台，其相关论文正提交至NeurIPS 2026评审，有望推动智能代码生成在科学计算中的实际应用。

当前挑战

PDEAgent-Bench所解决的核心领域挑战在于，现有PDE求解器代码生成评估多局限于单库或单一指标，缺乏对代码正确性、数值精度、执行效率及跨库兼容性的全面考量，导致模型实际部署时鲁棒性不足。在构建过程中，团队面临多重挑战：首先，需整合多种PDE类型（如泊松方程、波动方程）及多种数值库（如FEniCS、PyTorch），设计覆盖从简单到复杂问题的测试用例；其次，需建立多维度自动评估机制，平衡代码语法、数值结果与计算开销之间的矛盾；最后，确保基准测试集在规模有限（<1K样本）时仍能提供具有统计意义的性能区分度，以可靠反映模型在真实科学计算场景中的能力边界。

常用场景

经典使用场景

在科学计算与人工智能交叉的广阔领域中，偏微分方程作为描述物理世界复杂现象的数学语言，其数值求解始终是计算科学的核心挑战。PDEAgent-Bench应运而生，作为一项专门评估大语言模型及智能体端到端生成偏微分方程求解器代码能力的基准系统，它巧妙地将自然语言处理的边界拓展至科学计算领域。该数据集最经典的使用场景集中于检验模型在给定物理问题描述后，能否自动生成完整且可执行的PDE求解代码，涵盖从方程理解、离散方法选择到数值求解与结果可视化的全流程。研究者可借助此基准，系统性地衡量不同模型在符号推理、数值精度、库函数调用及多物理场适配等多维度的综合表现，从而推动AI从理论对话迈向精准的工程模拟应用。

实际应用

在现实世界的工程与科研场景中，PDEAgent-Bench所模塑的求解器生成能力正在多个领域落地生根。对于流体力学模拟，工程师可借助语言模型自动生成描述湍流或层流行为的Navier-Stokes求解代码，大幅缩短仿真前处理的时间。在材料科学领域，研究者能利用该基准评估的模型快速生成热传导或应力分布的计算脚本，加速新型材料的虚拟测试流程。生物医学工程中，心脏电生理或药物扩散的PDE建模也可从中获益，使跨学科团队无需深究数值方法细节即可获得可靠的计算工具。此外，该基准还赋能教育场景，帮助计算科学课程的教师自动生成不同难度等级的PDE编程练习，提升教学效率与内容的多样性。

衍生相关工作

PDEAgent-Bench的提出如同一块投入科学计算湖面的石子，激起了层层涟漪，催生了诸多极具价值的衍生研究。一方面，基于其多库评估框架，研究者开发了面向特定物理方程的微调数据增强方法，如利用符号回归与自动微分生成格式多样的训练样本，显著提升了模型对复杂边界条件的处理准确率。另一方面，该基准的评估逻辑被延伸至多智能体协作场景，衍生出诸如协作式PDE求解框架，其中不同智能体分别负责方程识别、离散化推理和代码优化，展现了分布式科学计算的新范式。此外，受其多度量体系启发的自适应评价策略也逐渐形成，能够根据任务难度动态调整权重，从而更细腻地刻画模型在不同物理尺度下的能力短板，为下一代科学AI基座模型的训练提供了导航灯塔。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集