llm-srbench

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/pkuHaowei/llm-srbench

下载链接

链接失效反馈

官方服务：

资源简介：

LLM-SRBench是一个用于评估大型语言模型（LLMs）在科学方程发现（符号回归）任务上的综合基准数据集。该数据集旨在防止简单的记忆，包含240个具有挑战性的问题，分为五个子集，覆盖不同的科学领域。数据集包括两个主要类别：LSR-Transform（基于费曼物理学讲座的方程转换）和LSR-Synth（合成问题，需要数据驱动的推理）。每个示例包含唯一标识符、任务描述、训练和测试数据、输入输出变量名称、真实方程等信息。数据集适用于科学方程发现、符号回归等任务，并提供了详细的评估指标（NMSE、ACC0.1、SA）。

创建时间：

2026-02-02

原始信息汇总

LLM-SRBench 数据集概述

数据集基本信息

数据集名称：LLM-SRBench
托管地址：https://huggingface.co/datasets/pkuHaowei/llm-srbench
原始论文：LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models (ICML 2025 Oral)
原始代码库：deep-symbolic-mathematics/llm-srbench
原始数据集：nnheui/llm-srbench
许可证：MIT License

数据集目的

LLM-SRBench 是一个用于评估大型语言模型在科学方程发现（符号回归）任务上的综合基准测试，旨在防止简单的记忆化。

数据集规模与结构

数据集包含 240 个挑战性问题，分为 5 个子集，涵盖不同科学领域。

子集统计信息

子集名称	描述	示例数量	难度
`lsr_transform`	来自物理学的变换费曼方程	111	中等
`lsr_synth_matsci`	材料科学方程	25	困难
`lsr_synth_chem_react`	化学反应方程	36	困难
`lsr_synth_bio_pop_growth`	生物种群增长方程	24	困难
`lsr_synth_phys_osc`	物理振荡方程	44	困难

数据类别

LSR-Transform：将常见的物理模型转换为不常见的数学表示形式，以测试超越记忆形式的推理能力。基于《费曼物理学讲义》中的方程。
LSR-Synth：引入合成的、发现驱动的问题，需要数据驱动的推理。涵盖四个科学领域：
- 材料科学 (MatSci)：晶体结构、弹性和热力学方程
- 化学反应 (ChemReact)：反应动力学和速率方程
- 生物种群增长 (BioPopGrowth)：增长模型和种群动态
- 物理振荡 (PhysOsc)：谐振子和波动方程

数据字段说明

每个数据示例包含以下字段：

字段名	类型	描述
`instance_id`	`string`	问题的唯一标识符（例如 `lsr_transform_feynman_001`）
`description`	`string`	任务和变量的自然语言描述
`train_input`	`list[list[float]]`	训练输入数据 [n_samples, n_features]
`train_output`	`list[list[float]]`	训练输出数据 [n_samples, n_outputs]
`test_input`	`list[list[float]]`	测试输入数据 [n_samples, n_features]
`test_output`	`list[list[float]]`	测试输出数据 [n_samples, n_outputs]
`input_vars`	`list[string]`	输入变量名称
`output_vars`	`list[string]`	输出变量名称
`gt_expression`	`string`	真实方程（用于评估）
`symbols`	`list[string]`	方程中使用的所有变量符号
`subset`	`string`	子集标识符

任务描述

每个任务的目标是发现描述输入和输出变量之间关系的数学方程，给定训练数据。

评估指标

基准测试使用三个指标进行评估：

NMSE（归一化均方误差）

NMSE = MSE(y_pred, y_true) / Var(y_true)
- 值越低越好（0 = 完美预测）
ACC0.1（10% 准确率）
- 相对误差在 10% 以内的预测百分比
- 值越高越好（1.0 = 所有预测都在 10% 以内）
SA（符号准确率）
- 使用 sympy 检查与真实方程的符号等价性
- 等价则为 1.0，否则为 0.0

技术规格

配置详情

配置数量：5 个
数据格式：每个配置包含一个训练分割
总下载大小：约 354 MB
总数据集大小：约 560 MB

各配置详细信息

lsr_synth_bio_pop_growth
- 训练示例：24 个
- 字节数：3,466,036
- 下载大小：1,965,723
lsr_synth_chem_react
- 训练示例：36 个
- 字节数：5,199,031
- 下载大小：2,947,069
lsr_synth_matsci
- 训练示例：25 个
- 字节数：3,610,657
- 下载大小：1,421,381
lsr_synth_phys_osc
- 训练示例：44 个
- 字节数：7,759,087
- 下载大小：5,121,827
lsr_transform
- 训练示例：111 个
- 字节数：544,389,429
- 下载大小：345,538,533

使用方式

加载数据集

python from datasets import load_dataset ds = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_bio_pop_growth")

可用子集

python lsr_transform = load_dataset("pkuHaowei/llm-srbench", "lsr_transform") matsci = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_matsci") chem_react = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_chem_react") bio_pop = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_bio_pop_growth") phys_osc = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_phys_osc")

致谢

该数据集改编自 Shojaee 等人的原始 LLM-SRBench。原始工作发表在 ICML 2025（口头报告）。感谢原作者对科学方程发现领域的贡献。

搜集汇总

数据集介绍

构建方式

在科学方程发现领域，LLM-SRBench数据集的构建体现了严谨的工程化设计。其核心方法是将240个挑战性问题系统性地划分为五个子集，涵盖物理、材料科学、化学与生物学等多个学科。LSR-Transform子集通过对经典物理方程进行数学形式变换，有效避免了模型对常见公式的简单记忆；而LSR-Synth子集则通过合成数据生成技术，在四个科学领域中构造了需要数据驱动推理的发现式问题。每个数据实例均包含详尽的训练与测试数值对、变量描述以及标准表达式，确保了评估任务的清晰性与可复现性。

特点

该数据集最显著的特征在于其跨学科的综合性与防记忆设计。五个精心划分的子集不仅覆盖了从物理振荡到生物种群增长等多样化的科学场景，更通过数学变换与合成构造提升了问题的推理难度。每个实例均提供了结构化的输入输出变量名、自然语言任务描述以及作为评估基准的真实表达式，形成了完整的符号回归任务框架。数据以嵌套列表形式存储多维数值，兼顾了信息密度与程序化访问的便利性，为大型语言模型的科学推理能力评估提供了坚实而全面的基准。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库按需加载特定子集，例如专注于生物种群增长或材料科学方程。加载后，每个实例的`train_input`与`train_output`字段可直接转换为数值数组用于模型训练，而`test_input`与`test_output`则用于性能验证。评估过程可依据数据集建议的标准化指标——包括归一化均方误差、10%准确率及符号准确性——对模型发现的方程进行量化比较。通过结合自然语言描述与数值数据，该数据集支持端到端的科学方程发现流程，适用于检验模型从数据中归纳数学规律的能力。

背景与挑战

背景概述

在科学发现与人工智能交叉领域，符号回归任务旨在从观测数据中自动推导出潜在的数学表达式，这一过程对于揭示自然规律至关重要。LLM-SRBench数据集由Shojaee等人于2025年构建，并作为ICML会议的口头报告成果发布，其核心研究问题是评估大语言模型在跨学科科学方程发现任务中的推理与泛化能力。该数据集涵盖了物理、材料科学、化学反应与生物种群增长等多个科学领域，通过精心设计的240个挑战性问题，旨在推动模型超越对已知公式的简单记忆，实现真正意义上的数据驱动科学发现，对计算科学与人工智能研究产生了显著的引领作用。

当前挑战

该数据集致力于解决符号回归领域的关键挑战，即要求模型从有限的数据样本中推断出精确且可解释的数学方程，而非进行简单的曲线拟合。其构建过程面临多重困难：一方面，需要设计能够有效防止模型通过记忆已知物理公式而作弊的变换问题与合成问题；另一方面，需在多个学科中构建兼具真实性与复杂性的基准，确保问题既能反映实际科学场景，又具备足够的难度以区分模型的推理能力。此外，生成高质量的训练与测试数据，并确保其与隐藏的真实表达式在数学上严格一致，亦是一项严谨而耗时的工程。

常用场景

经典使用场景

在科学发现与符号回归领域，LLM-SRBench数据集为评估大语言模型在复杂科学方程发现任务上的能力提供了基准。其经典使用场景集中于引导模型从给定的数值数据中，通过推理归纳出潜在的数学表达式。该数据集通过精心设计的五个子集，覆盖了物理、材料科学、化学反应、生物种群增长等多个科学领域，要求模型不仅拟合数据，更要揭示变量间精确的数学关系，从而模拟科学家从实验数据中推导定律的过程。

衍生相关工作

围绕LLM-SRBench数据集，已衍生出一系列探索大语言模型科学推理能力的经典研究工作。其本身作为ICML 2025的口头报告成果，为后续研究设立了标杆。相关衍生工作主要沿着两个方向展开：一是开发新型的提示工程与思维链方法，以提升模型在符号回归任务上的表现；二是设计更高效的神经符号混合架构，将大语言模型的序列生成能力与传统的符号数学引擎相结合。这些工作共同推动了“AI for Science”这一前沿交叉领域的发展，探索如何让大语言模型成为科学家进行方程发现和理论建模的智能助手。

数据集最近研究