five

SRSD datasets

收藏
arXiv2024-03-05 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2206.10540v5
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于讨论符号回归在科学发现中的性能,包含120个基于费曼物理学讲座中的公式重新创建的数据集,以及另外120个包含虚拟变量的数据集,用于评估符号回归方法是否能仅选择必要的变量。

This dataset is developed to investigate the performance of symbolic regression in scientific discovery. It includes 120 datasets reconstructed from formulas in the Feynman Lectures on Physics, and another 120 datasets with dummy variables, which are used to evaluate whether symbolic regression methods can select only the necessary variables.
创建时间:
2022-06-22
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于费曼物理学讲义中的120个物理公式构建,旨在评估符号回归在科学发现中的潜力。研究者仔细审查每个公式及其变量的物理特性,设计了符合实际物理实验的采样范围,例如将光速等物理常数固定为常量,而非像传统数据集那样作为变量随机采样。变量取值依据SI单位制,并参考典型实验场景设定对数或均匀分布。此外,为每个公式生成了包含10,000个样本的表格数据,并划分为训练集、验证集和测试集(比例8:1:1)。基于问题复杂度(操作数数量和采样域范围),数据集被划分为Easy、Medium和Hard三个子集,分别包含30、40和50个问题。同时,额外构建了120个包含虚拟变量的数据集,以检验符号回归方法的特征选择能力。
使用方法
使用SRSD数据集时,研究者可针对每个问题独立训练符号回归模型,利用提供的验证集通过最小化相对误差平方和选择最优模型。评估指标包括基于R²的准确率(阈值0.999)、求解率(方程完全匹配)以及归一化编辑距离(NED)。NED通过将方程转换为树结构并计算编辑距离来量化结构相似性,范围0-1。对于含虚拟变量的数据集,需额外关注模型是否误用无关特征。代码和数据集已公开在GitHub和Hugging Face上,支持复现。建议在Easy集上进行超参数调优和初步验证,再扩展至Medium和Hard集。实验表明,uDSR和PySR在R²准确率和NED上表现最优,但所有方法对虚拟变量均缺乏鲁棒性,提示未来研究需关注特征选择与模型简化。
背景与挑战
背景概述
符号回归作为从数据中自动发现可解释数学表达式的关键技术,在物理学、化学等科学领域具有广阔的应用前景。然而,现有数据集如基于费曼物理学讲义构建的FSRD,虽包含120个物理公式,但其变量采样范围过于简化,物理常数被当作变量随机采样,且未考虑变量物理意义,难以真实评估符号回归在科学发现中的潜力。为此,由Yoshitomo Matsubara、Naoya Chiba等研究人员于2022年提出的SRSD数据集,在重新审视每个公式变量属性的基础上,设计了更为合理且符合物理实验现实的采样范围,并引入冗余变量以考察方法的特征选择能力。该数据集共包含240个基准问题,为符号回归在科学发现领域的性能评估提供了更贴近实际的研究平台。
当前挑战
SRSD数据集面临的挑战主要体现在两个方面。其一,所解决的领域问题在于现有符号回归方法在面对物理意义明确、采样范围真实的数据时,往往难以准确发现潜在物理定律,尤其是当数据包含冗余变量时,多数方法无法有效排除无关特征,导致预测表达式过度复杂或错误。其二,构建过程中,研究人员需为每个物理公式仔细审查变量属性(如整数/浮点、正负性),并依据典型物理实验设定国际单位制下的采样范围,同时避免使用反三角函数等非物理变形,这要求对公式背后的物理现象有深刻理解。此外,如何合理引入冗余变量并确保其不影响真实规律的识别,也是数据集构建的一大难点。
常用场景
经典使用场景
在科学发现与符号回归领域,SRSD数据集被广泛用于评估从观测数据中自动发现物理定律的能力。该数据集基于费曼物理学讲义中的公式精心设计,通过为每个变量设定符合真实物理实验的采样范围(如采用对数均匀分布模拟数量级变化,或将光速、真空介电常数等作为常量处理),克服了传统数据集采样过于简化、变量无物理意义等缺陷。研究者利用这120个蕴含真实物理规律的回归问题,系统测试符号回归方法能否从数据中重新发现如牛顿力学、电磁学或热力学中的基本定律,从而衡量算法在科学发现任务上的真实潜力。
解决学术问题
该数据集直击符号回归用于科学发现时面临的三大瓶颈:数据集过于简化、缺乏合理的评价指标以及忽视特征选择问题。通过引入物理意义明确的采样策略与虚拟变量,SRSD数据集解决了传统基准中因采样范围狭窄导致的公式重复(如库仑定律与摩擦力公式在原始数据集中被视为同一问题)和物理常数被错误当作变量处理等缺陷。同时,论文提出的归一化编辑距离指标,克服了传统二元正确率指标无法量化预测公式与真实公式结构相似性的局限,使得研究者能够更精细地评估模型在科学发现任务中的表现。
实际应用
在实际应用中,SRSD数据集为物理学家、化学家及材料科学家提供了可靠的基准工具,用于筛选最适合其研究领域的符号回归方法。例如,在材料科学中,研究者可利用该数据集测试算法能否从实验数据中自动提炼出如杨氏模量或热导率等关键物性公式;在气象学中,可评估模型从风速、气压等观测数据中重建流体力学方程的能力。通过引入虚拟变量模拟真实世界中无关测量变量的干扰,该数据集还能帮助科研人员验证所选方法在噪声环境下剔除冗余特征、精准发现核心物理规律的鲁棒性。
数据集最近研究
最新研究方向
在科学发现领域,符号回归(Symbolic Regression)正逐渐成为从观测数据中自动揭示物理定律的关键工具。然而,现有数据集如Feynman Symbolic Regression Database(FSRD)存在采样范围过于简化、变量缺乏物理意义、忽略特征选择等局限,难以真实评估模型在科学发现中的潜力。针对这些不足,最新研究提出了SRSD数据集,基于费曼物理学讲义中的120个公式,重新设计了符合物理实验背景的采样策略,将物理常数固定、变量取值范围设定为国际单位制中的合理区间,并引入哑变量以考察模型的特征选择能力。同时,该研究创新性地采用归一化编辑距离(NED)作为评估指标,以树结构相似性衡量预测方程与真实方程之间的结构接近度,克服了传统二元正确率或仅依赖预测误差的局限。实验表明,uDSR和PySR在SRSD数据集上表现最优,而所有基线方法均对哑变量缺乏鲁棒性,揭示了当前符号回归方法在真实科学发现场景中仍有显著提升空间。用户研究进一步证实,NED与人类评判的相关性显著优于传统的R²分数,为符号回归在科学发现中的实际应用提供了更可靠的评估框架。
相关研究论文
  • 1
    Rethinking Symbolic Regression Datasets and Benchmarks for Scientific Discovery · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作