SRSD datasets

arXiv2024-03-05 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.10540v5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于讨论符号回归在科学发现中的性能，包含120个基于费曼物理学讲座中的公式重新创建的数据集，以及另外120个包含虚拟变量的数据集，用于评估符号回归方法是否能仅选择必要的变量。

This dataset is developed to investigate the performance of symbolic regression in scientific discovery. It includes 120 datasets reconstructed from formulas in the Feynman Lectures on Physics, and another 120 datasets with dummy variables, which are used to evaluate whether symbolic regression methods can select only the necessary variables.

创建时间：

2022-06-22

搜集汇总

数据集介绍

构建方式

该数据集基于费曼物理学讲义中的120个物理公式构建，旨在评估符号回归在科学发现中的潜力。研究者仔细审查每个公式及其变量的物理特性，设计了符合实际物理实验的采样范围，例如将光速等物理常数固定为常量，而非像传统数据集那样作为变量随机采样。变量取值依据SI单位制，并参考典型实验场景设定对数或均匀分布。此外，为每个公式生成了包含10,000个样本的表格数据，并划分为训练集、验证集和测试集（比例8:1:1）。基于问题复杂度（操作数数量和采样域范围），数据集被划分为Easy、Medium和Hard三个子集，分别包含30、40和50个问题。同时，额外构建了120个包含虚拟变量的数据集，以检验符号回归方法的特征选择能力。

使用方法

使用SRSD数据集时，研究者可针对每个问题独立训练符号回归模型，利用提供的验证集通过最小化相对误差平方和选择最优模型。评估指标包括基于R²的准确率（阈值0.999）、求解率（方程完全匹配）以及归一化编辑距离（NED）。NED通过将方程转换为树结构并计算编辑距离来量化结构相似性，范围0-1。对于含虚拟变量的数据集，需额外关注模型是否误用无关特征。代码和数据集已公开在GitHub和Hugging Face上，支持复现。建议在Easy集上进行超参数调优和初步验证，再扩展至Medium和Hard集。实验表明，uDSR和PySR在R²准确率和NED上表现最优，但所有方法对虚拟变量均缺乏鲁棒性，提示未来研究需关注特征选择与模型简化。

背景与挑战

背景概述

符号回归作为从数据中自动发现可解释数学表达式的关键技术，在物理学、化学等科学领域具有广阔的应用前景。然而，现有数据集如基于费曼物理学讲义构建的FSRD，虽包含120个物理公式，但其变量采样范围过于简化，物理常数被当作变量随机采样，且未考虑变量物理意义，难以真实评估符号回归在科学发现中的潜力。为此，由Yoshitomo Matsubara、Naoya Chiba等研究人员于2022年提出的SRSD数据集，在重新审视每个公式变量属性的基础上，设计了更为合理且符合物理实验现实的采样范围，并引入冗余变量以考察方法的特征选择能力。该数据集共包含240个基准问题，为符号回归在科学发现领域的性能评估提供了更贴近实际的研究平台。

当前挑战

SRSD数据集面临的挑战主要体现在两个方面。其一，所解决的领域问题在于现有符号回归方法在面对物理意义明确、采样范围真实的数据时，往往难以准确发现潜在物理定律，尤其是当数据包含冗余变量时，多数方法无法有效排除无关特征，导致预测表达式过度复杂或错误。其二，构建过程中，研究人员需为每个物理公式仔细审查变量属性（如整数/浮点、正负性），并依据典型物理实验设定国际单位制下的采样范围，同时避免使用反三角函数等非物理变形，这要求对公式背后的物理现象有深刻理解。此外，如何合理引入冗余变量并确保其不影响真实规律的识别，也是数据集构建的一大难点。

常用场景

经典使用场景

在科学发现与符号回归领域，SRSD数据集被广泛用于评估从观测数据中自动发现物理定律的能力。该数据集基于费曼物理学讲义中的公式精心设计，通过为每个变量设定符合真实物理实验的采样范围（如采用对数均匀分布模拟数量级变化，或将光速、真空介电常数等作为常量处理），克服了传统数据集采样过于简化、变量无物理意义等缺陷。研究者利用这120个蕴含真实物理规律的回归问题，系统测试符号回归方法能否从数据中重新发现如牛顿力学、电磁学或热力学中的基本定律，从而衡量算法在科学发现任务上的真实潜力。

解决学术问题

该数据集直击符号回归用于科学发现时面临的三大瓶颈：数据集过于简化、缺乏合理的评价指标以及忽视特征选择问题。通过引入物理意义明确的采样策略与虚拟变量，SRSD数据集解决了传统基准中因采样范围狭窄导致的公式重复（如库仑定律与摩擦力公式在原始数据集中被视为同一问题）和物理常数被错误当作变量处理等缺陷。同时，论文提出的归一化编辑距离指标，克服了传统二元正确率指标无法量化预测公式与真实公式结构相似性的局限，使得研究者能够更精细地评估模型在科学发现任务中的表现。

实际应用

在实际应用中，SRSD数据集为物理学家、化学家及材料科学家提供了可靠的基准工具，用于筛选最适合其研究领域的符号回归方法。例如，在材料科学中，研究者可利用该数据集测试算法能否从实验数据中自动提炼出如杨氏模量或热导率等关键物性公式；在气象学中，可评估模型从风速、气压等观测数据中重建流体力学方程的能力。通过引入虚拟变量模拟真实世界中无关测量变量的干扰，该数据集还能帮助科研人员验证所选方法在噪声环境下剔除冗余特征、精准发现核心物理规律的鲁棒性。

数据集最近研究