llm-srbench
收藏LLM-SRBench 数据集概述
数据集基本信息
- 数据集名称:LLM-SRBench
- 托管地址:https://huggingface.co/datasets/pkuHaowei/llm-srbench
- 原始论文:LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models (ICML 2025 Oral)
- 原始代码库:deep-symbolic-mathematics/llm-srbench
- 原始数据集:nnheui/llm-srbench
- 许可证:MIT License
数据集目的
LLM-SRBench 是一个用于评估大型语言模型在科学方程发现(符号回归)任务上的综合基准测试,旨在防止简单的记忆化。
数据集规模与结构
数据集包含 240 个挑战性问题,分为 5 个子集,涵盖不同科学领域。
子集统计信息
| 子集名称 | 描述 | 示例数量 | 难度 |
|---|---|---|---|
lsr_transform |
来自物理学的变换费曼方程 | 111 | 中等 |
lsr_synth_matsci |
材料科学方程 | 25 | 困难 |
lsr_synth_chem_react |
化学反应方程 | 36 | 困难 |
lsr_synth_bio_pop_growth |
生物种群增长方程 | 24 | 困难 |
lsr_synth_phys_osc |
物理振荡方程 | 44 | 困难 |
数据类别
- LSR-Transform:将常见的物理模型转换为不常见的数学表示形式,以测试超越记忆形式的推理能力。基于《费曼物理学讲义》中的方程。
- LSR-Synth:引入合成的、发现驱动的问题,需要数据驱动的推理。涵盖四个科学领域:
- 材料科学 (MatSci):晶体结构、弹性和热力学方程
- 化学反应 (ChemReact):反应动力学和速率方程
- 生物种群增长 (BioPopGrowth):增长模型和种群动态
- 物理振荡 (PhysOsc):谐振子和波动方程
数据字段说明
每个数据示例包含以下字段:
| 字段名 | 类型 | 描述 |
|---|---|---|
instance_id |
string |
问题的唯一标识符(例如 lsr_transform_feynman_001) |
description |
string |
任务和变量的自然语言描述 |
train_input |
list[list[float]] |
训练输入数据 [n_samples, n_features] |
train_output |
list[list[float]] |
训练输出数据 [n_samples, n_outputs] |
test_input |
list[list[float]] |
测试输入数据 [n_samples, n_features] |
test_output |
list[list[float]] |
测试输出数据 [n_samples, n_outputs] |
input_vars |
list[string] |
输入变量名称 |
output_vars |
list[string] |
输出变量名称 |
gt_expression |
string |
真实方程(用于评估) |
symbols |
list[string] |
方程中使用的所有变量符号 |
subset |
string |
子集标识符 |
任务描述
每个任务的目标是发现描述输入和输出变量之间关系的数学方程,给定训练数据。
评估指标
基准测试使用三个指标进行评估:
-
NMSE(归一化均方误差)
NMSE = MSE(y_pred, y_true) / Var(y_true)
- 值越低越好(0 = 完美预测)
-
ACC0.1(10% 准确率)
- 相对误差在 10% 以内的预测百分比
- 值越高越好(1.0 = 所有预测都在 10% 以内)
-
SA(符号准确率)
- 使用 sympy 检查与真实方程的符号等价性
- 等价则为 1.0,否则为 0.0
技术规格
配置详情
- 配置数量:5 个
- 数据格式:每个配置包含一个训练分割
- 总下载大小:约 354 MB
- 总数据集大小:约 560 MB
各配置详细信息
-
lsr_synth_bio_pop_growth
- 训练示例:24 个
- 字节数:3,466,036
- 下载大小:1,965,723
-
lsr_synth_chem_react
- 训练示例:36 个
- 字节数:5,199,031
- 下载大小:2,947,069
-
lsr_synth_matsci
- 训练示例:25 个
- 字节数:3,610,657
- 下载大小:1,421,381
-
lsr_synth_phys_osc
- 训练示例:44 个
- 字节数:7,759,087
- 下载大小:5,121,827
-
lsr_transform
- 训练示例:111 个
- 字节数:544,389,429
- 下载大小:345,538,533
使用方式
加载数据集
python from datasets import load_dataset ds = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_bio_pop_growth")
可用子集
python lsr_transform = load_dataset("pkuHaowei/llm-srbench", "lsr_transform") matsci = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_matsci") chem_react = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_chem_react") bio_pop = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_bio_pop_growth") phys_osc = load_dataset("pkuHaowei/llm-srbench", "lsr_synth_phys_osc")
相关资源
- Harbor 适配器:Harbor Framework
致谢
该数据集改编自 Shojaee 等人的原始 LLM-SRBench。原始工作发表在 ICML 2025(口头报告)。感谢原作者对科学方程发现领域的贡献。




