yoshitomo-matsubara/srsd-feynman_easy_dummy

Name: yoshitomo-matsubara/srsd-feynman_easy_dummy
Creator: yoshitomo-matsubara
Published: 2024-03-05 07:22:58
License: 暂无描述

Hugging Face2024-03-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yoshitomo-matsubara/srsd-feynman_easy_dummy

下载链接

链接失效反馈

官方服务：

资源简介：

SRSD-Feynman（带有虚拟变量的简单集）数据集旨在评估符号回归在科学发现中的性能，特别是重新发现物理定律的潜力。该数据集包含30个不同的物理公式，并引入了虚拟变量，这些变量不应被符号回归模型用于预测。数据集的结构包括训练、验证和测试分割，每个公式有8000个训练样本、1000个验证样本和1000个测试样本。数据集的创建基于Feynman符号回归数据库，并对变量的采样范围进行了修订，以确保其符合典型物理实验的条件。

提供机构：

yoshitomo-matsubara

原始信息汇总

数据集概述

数据集名称

名称: SRSD-Feynman (Easy w/ Dummy Variables)

数据集描述

摘要: 该数据集旨在评估符号回归在科学发现中的性能。它基于Feynman符号回归数据库，设计了合理的真实值采样范围，以评估符号回归方法的潜力。
任务: 符号回归
语言: 英语
许可证: Creative Commons Attribution 4.0 (cc-by-4.0)

数据集结构

数据实例: 每个实例包括表格数据和目标函数的真实方程。表格数据为(num_samples, num_variables+1)格式，其中最后一列表示目标函数对给定变量的输出。
数据字段: 包括训练集、验证集、测试集和真实方程的文件。
数据分割: 训练集每方程8,000样本，验证集和测试集每方程1,000样本。

数据集创建

来源数据: 基于Feynman符号回归数据库。
注释过程: 对每个变量的采样范围进行了显著修订，以适应典型的物理实验。
注释者: Naoya Chiba和Ryo Igarashi。

使用数据注意事项

社会影响: 该数据集有助于研究符号回归在科学发现中的应用。
偏见讨论: 数据集的选择基于物理学领域的Feynman符号回归数据库。
其他已知限制: 某些变量应视为整数，但由于技术限制，某些情况下被视为浮点数。

数据集管理

数据集管理者: Naoya Chiba和Ryo Igarashi。
许可证信息: Creative Commons Attribution 4.0。
引用信息: 参见OpenReview。
贡献者: Yoshitomo Matsubara, Naoya Chiba, Ryo Igarashi, Yoshitaka Ushiku。

搜集汇总

数据集介绍

构建方式

在符号回归与科学发现的研究领域，SRSD-Feynman简易版数据集以费曼物理公式库为基石，精心构建而成。专家团队对每个公式的变量特性进行了深入审查，依据典型物理实验场景，为变量设定了合理的采样范围。变量值多在数量级尺度上以对数分布采样，而角度等特定变量则采用均匀分布，同时确保符合物理意义的符号约束。此外，数据集中引入了随机生成的虚拟变量，旨在检验模型对无关变量的鲁棒性。每个公式均包含八千个训练样本、一千个验证样本及一千个测试样本，以文本格式存储，并附有基于Sympy的符号化真实方程。

使用方法

研究人员可利用该数据集训练与评估符号回归模型，推动科学发现领域的算法进步。使用前需从指定仓库下载数据文件，其中训练、验证与测试集均以空格分隔的文本格式提供，真实方程则以Sympy序列化对象存储。在模型开发过程中，应着重关注模型从表格数据中识别真实物理规律的能力，并确保其不受随机添加的虚拟变量影响。数据集遵循CC-BY-4.0许可，允许开放使用与共享，引用时请参照提供的论文信息，以支持学术规范的延续。

背景与挑战

背景概述

在科学发现领域，符号回归作为连接数据驱动方法与物理定律解析表达的关键桥梁，其评估基准的构建一直面临缺乏标准化与真实性的困境。为此，研究团队于2022年提出了SRSD-Feynman数据集，该数据集由Yoshitomo Matsubara等人主导，并得到相关机构的支持。其核心研究问题聚焦于如何设计一个既包含真实物理背景又能有效评估符号回归模型科学发现潜力的基准。该数据集基于著名的费曼符号回归数据库，精选了30个物理学公式，并通过专家精心设定变量的合理采样范围，以模拟典型物理实验场景。这一工作显著推动了符号回归在科学发现中的应用，为后续研究提供了可靠的评估基础。

当前挑战

该数据集旨在解决符号回归在科学发现中的核心挑战，即从复杂数据中准确且可解释地重新发现物理定律。具体而言，挑战包括模型需在存在冗余变量的情况下识别真实物理关系，避免被随机生成的虚拟变量干扰，这要求算法具备强大的特征选择与符号推理能力。在构建过程中，挑战主要源于变量采样范围的合理界定，需确保每个公式的变量值域既符合物理实验的典型条件，又能覆盖足够的变化幅度以揭示定律本质。此外，处理如分子数量等极大整数变量时，受限于计算精度而采用浮点表示，可能引入数值误差，增加了数据真实性与模型泛化之间的平衡难度。

常用场景

经典使用场景

在符号回归研究领域，SRSD-Feynman数据集为评估算法从物理数据中重新发现自然定律的能力提供了基准。该数据集精心设计了30个物理学公式，涵盖力学、电磁学等多个分支，每个公式均配有模拟真实实验条件生成的数值样本。研究者利用这些数据训练模型，旨在从包含噪声和冗余变量的表格数据中精确还原出潜在的数学表达式，从而检验符号回归方法在科学发现任务中的泛化性能与鲁棒性。

解决学术问题

该数据集有效应对了符号回归研究中长期存在的挑战，即如何从高维、含噪声的观测数据中自动推导出简洁的物理定律。通过引入与目标变量无关的虚拟变量，它迫使算法具备变量选择能力，避免过拟合冗余特征。这一设计深化了对于模型可解释性与科学发现可靠性的探讨，为评估数据驱动科学发现方法的实际潜力提供了严谨的实证基础，推动了机器学习与计算物理学的交叉融合。

实际应用

在工程与科研实践中，该数据集启发了基于符号回归的自动化建模工具开发，可用于从实验观测数据中直接推导经验公式。例如，在材料科学中分析物性参数关系，或在流体动力学中拟合复杂现象的控制方程。其包含的虚拟变量模拟了真实数据中常见的无关特征，使得训练出的模型更贴近实际应用场景，有助于开发能够从嘈杂工业数据中稳健提取关键物理关系的智能系统。

数据集最近研究