ODE-1000
收藏arXiv2025-09-12 更新2025-09-16 收录
下载链接:
https://arxiv.org/abs/2509.09936v1
下载链接
链接失效反馈官方服务:
资源简介:
ODE-1000数据集包含1000个多样化的常微分方程(ODE)问题,旨在评估大型语言模型(LLM)在科学代码生成方面的能力。数据集中的问题来自自然语言描述,并配有可执行的Python解决方案。该数据集的设计旨在测试LLM从自然语言描述中推导正确ODE和问题设置的能力,并生成语法有效、数值稳定且方法选择合适的求解器代码。数据集还包括一个诊断数据集,包含一些表面看似刚性但实际上是非刚性的问题,用于测试LLM的符号推理能力。
The ODE-1000 dataset includes 1000 diverse ordinary differential equation (ODE) problems, designed to evaluate the capabilities of Large Language Models (LLMs) in scientific code generation. The problems in the dataset originate from natural language descriptions and are paired with executable Python solutions. The dataset is constructed to test LLMs' ability to derive correct ODEs and problem settings from natural language descriptions, as well as to generate solver code that is syntactically valid, numerically stable, and employs appropriately selected solution methods. Additionally, the dataset contains a diagnostic subset consisting of problems that appear rigid at first glance but are actually non-rigid, which is used to assess the symbolic reasoning capabilities of LLMs.
提供机构:
加州大学伯克利分校, 劳伦斯伯克利国家实验室, 国际计算机科学研究所
创建时间:
2025-09-12
搜集汇总
数据集介绍

构建方式
ODE-1000数据集的构建采用多阶段合成与验证流程,通过GPT-4.1生成候选问题,涵盖自然语言描述的物理或数学系统,并强制要求多样性,包括刚性与非刚性动力学、阶数、时间区间及求解器类型。每个样本包含描述、SymPy方程、初始条件、推理链和可执行Python代码,随后通过沙箱执行验证语法有效性,并利用SymPy解析解计算相对L2误差,过滤误差超过阈值的不稳定样本,最终保留1000个经过严格数值验证的高质量实例。
特点
该数据集的核心特点在于其科学严谨性与多样性,覆盖1000个常微分方程问题,均源自真实场景的自然语言描述,强调对求解器选择的敏感性,如刚性与非刚性系统的区分。每个样本配备完整的符号方程、初始条件和逐步推理痕迹,确保数值解的可靠性与可解释性。数据集还平衡了不同求解器方法(如RK45、BDF等)的分布,并包含解析解作为基准,为评估LLM的科学代码生成能力提供了全面且具有挑战性的测试平台。
使用方法
ODE-1000数据集专用于评估大型语言模型在科学计算中的代码生成能力,用户可通过提供自然语言问题描述,要求模型生成可执行的Python代码,调用SciPy的solve_ivp函数求解ODE。评估需关注代码执行率、数值准确性(相对L2误差低于0.01)及求解器选择的科学性。该数据集支持零样本、引导提示或微调等实验设置,适用于研究模型在符号推理、算法选择及数值稳定性方面的表现,为SciML智能体的开发提供基准。
背景与挑战
背景概述
ODE-1000数据集由加州大学伯克利分校与劳伦斯伯克利国家实验室联合团队于2025年创建,旨在评估大语言模型在科学计算领域的代码生成能力。该数据集聚焦于常微分方程数值求解任务,核心研究问题是通过自然语言描述生成兼具语法正确性与数值合理性的求解代码。其创新性在于将传统数值分析算法与新兴大语言模型技术相结合,推动了科学机器学习领域从直接预测解函数向智能算法选择的范式转变,为SciML智能体的可靠性评估建立了新标准。
当前挑战
该数据集主要解决科学计算中算法选择的领域挑战,即如何根据微分方程特性自动选择显式/隐式求解器并设置合理容差。构建过程面临三重挑战:一是需设计兼具数学复杂性与现实相关性的千例微分方程问题;二是必须确保生成代码的数值稳定性,通过相对L2误差阈值严格过滤失效样本;三是需要平衡数据多样性,涵盖刚性/非刚性系统、不同阶数方程及多维动力学特性,同时保持解析解可验证性。
常用场景
经典使用场景
在科学机器学习领域,ODE-1000数据集被广泛用于评估大型语言模型在生成科学计算代码方面的能力,特别是在处理常微分方程(ODE)求解任务时。该数据集通过提供多样化的ODE问题描述,促使模型生成可执行的Python代码,并选择合适的数值求解器(如RK45或BDF),从而验证模型在符号推理和数值稳定性方面的表现。
解决学术问题
ODE-1000数据集解决了科学机器学习中模型直接预测解决方案时面临的准确性和鲁棒性挑战,通过引导模型生成基于成熟数值算法的代码,而非直接学习解函数。它帮助评估模型在求解器选择、误差容忍度设置和稳定性检查等方面的能力,为研究符号推理和代码生成的可靠性提供了基准,推动了科学计算中AI代理的发展。
衍生相关工作
ODE-1000数据集衍生了一系列经典工作,包括基于符号推理的诊断评估框架和针对科学代码生成的微调方法。相关研究如CodePDE和PDE-Controller扩展了LLM在偏微分方程求解中的应用,而诊断数据集则启发了对模型代数简化能力的深入分析,这些工作共同推动了科学机器学习中代码生成代理的可靠性和泛化能力提升。
以上内容由遇见数据集搜集并总结生成



