yoshitomo-matsubara/srsd-feynman_easy
收藏Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yoshitomo-matsubara/srsd-feynman_easy
下载链接
链接失效反馈官方服务:
资源简介:
SRSD-Feynman (Easy)数据集旨在讨论符号回归在科学发现中的性能。该数据集基于Feynman符号回归数据库,包含30个不同的物理公式,每个公式有相应的表格数据和真实方程。数据集的创建过程包括对变量范围的修订,以适应典型的物理实验。数据集分为训练、验证和测试集,每个公式分别有8000、1000和1000个样本。数据集的注释由专家完成,主要关注物理常量和变量的合理范围。
The SRSD-Feynman (Easy) dataset is designed to evaluate the performance of symbolic regression in scientific discovery. It is built upon the Feynman Symbolic Regression Database, and includes 30 distinct physical formulas, each paired with corresponding tabular data and the ground-truth equation. The dataset creation process involves revising variable ranges to align with typical physics experimental setups. The dataset is partitioned into training, validation, and test sets, with 8000, 1000, and 1000 samples per formula respectively for each subset. Annotations for the dataset are completed by domain experts, focusing primarily on the reasonable ranges of physical constants and variables.
提供机构:
yoshitomo-matsubara
原始信息汇总
数据集概述
数据集名称
- 名称: SRSD-Feynman (Easy)
数据集创建者
- 标注者: 专家
- 语言创建者: 专家
语言
- 语言: 英语
许可证
- 许可证: cc-by-4.0
多语言性
- 多语言性: 单语
数据集大小
- 大小: 100K<n<1M
源数据集
- 源数据集: 扩展
任务类别
- 任务类别: 表格回归
数据集描述
数据集总结
- 目的: 讨论符号回归在科学发现中的性能。
- 内容: 包含30个不同的物理公式,每个公式都有相应的表格数据和真实方程。
支持的任务和排行榜
- 任务: 符号回归
数据集结构
数据实例
- 格式: 表格数据 + 真实方程
- 表格数据: (num_samples, num_variables+1),其中最后一列表示目标函数在给定变量下的输出。
- 真实方程: 使用sympy符号表示的方程。
数据字段
- 数据字段: 训练集、验证集、测试集和真实方程。
数据分割
- 训练集: 8,000样本/公式
- 验证集: 1,000样本/公式
- 测试集: 1,000样本/公式
数据集创建
精选理由
- 精选理由: 基于Feynman符号回归数据库选择目标方程。
标注过程
- 标注过程: 对每个变量的采样范围进行了重大修订,以符合典型的物理实验。
标注者
- 主要标注者: Naoya Chiba (@nchiba), Ryo Igarashi (@rigarash)
使用数据的考虑
社会影响
- 社会影响: 促进符号回归在科学发现中的研究和讨论。
偏见讨论
- 偏见: 基于物理学领域的Feynman符号回归数据库。
其他已知限制
- 限制: 某些应为整数的变量因32位整数限制被处理为浮点数。
附加信息
数据集管理员
- 主要管理员: Naoya Chiba (@nchiba), Ryo Igarashi (@rigarash)
许可证信息
- 许可证: 创意共享署名4.0
引用信息
- 引用: 参考OpenReview和Preprint。
搜集汇总
数据集介绍

构建方式
SRSD-Feynman (Easy) 数据集的构建基于 [the Feynman Symbolic Regression Database](https://space.mit.edu/home/tegmark/aifeynman.html),由专家精心挑选并调整了每个公式的变量采样范围。首先,研究团队对每个变量的物理特性进行了详细分析,并将物理常数视为常量。随后,根据典型的物理实验场景,定义了变量的取值范围,确保数据集能够反映实际物理现象。对于难以确定具体实验场景的变量,取值范围设定在能够观察到相应物理现象的区间内。此外,部分变量采用对数尺度进行采样,以捕捉大范围的数值变化,而角度等变量则采用均匀分布。
特点
SRSD-Feynman (Easy) 数据集的核心特点在于其精心设计的变量采样范围和物理常数的处理方式。数据集包含30个不同的物理公式,每个公式均配有训练、验证和测试数据集,以及对应的真值方程。数据集的变量范围经过精心调整,以确保能够模拟典型的物理实验场景,从而为符号回归方法的评估提供了高质量的基准。此外,数据集的结构设计使得每个公式的变量数量不同,增加了数据集的多样性和挑战性。
使用方法
SRSD-Feynman (Easy) 数据集主要用于符号回归任务,旨在评估符号回归方法在科学发现中的潜力。用户可以通过加载数据集的训练、验证和测试部分,分别进行模型训练和评估。每个数据实例包含表格数据和对应的真值方程,表格数据的最后一列表示目标函数的输出。用户可以使用这些数据来训练符号回归模型,并通过验证和测试集评估模型的性能。此外,数据集还提供了真值方程的符号表示,便于模型输出与真值的对比分析。
背景与挑战
背景概述
SRSD-Feynman (Easy)数据集由Yoshitomo Matsubara等人创建,旨在探讨符号回归在科学发现中的性能。该数据集基于Feynman符号回归数据库,精心挑选了30个物理公式,并调整了变量的采样范围,以模拟典型的物理实验场景。通过这种方式,数据集旨在评估符号回归方法从数据中重新发现物理定律的潜力。该数据集的创建时间为2022年,主要研究人员包括Naoya Chiba和Ryo Igarashi,其研究成果发表在2024年的《Journal of Data-centric Machine Learning Research》上。该数据集对符号回归领域的研究具有重要影响,特别是在数据驱动的科学发现方面。
当前挑战
SRSD-Feynman (Easy)数据集的主要挑战在于其构建过程中对变量采样范围的精确调整。研究人员需要根据每个变量的物理特性,设定合理的采样范围,以确保数据能够反映真实的物理现象。此外,数据集中某些变量被视为整数,但由于32位整数的限制,部分变量被处理为浮点数,这可能引入一定的精度问题。另一个挑战是数据集的领域局限性,其目标公式主要集中在物理学领域,可能限制了其在其他科学领域的应用。
常用场景
经典使用场景
SRSD-Feynman (Easy) 数据集的经典使用场景主要集中在符号回归(Symbolic Regression)任务中,特别是在科学发现领域。该数据集通过提供30个不同的物理公式及其对应的表格数据,帮助研究人员评估符号回归方法在从数据中重新发现物理定律方面的潜力。每个公式都配有训练、验证和测试数据集,研究人员可以利用这些数据集来训练和验证符号回归模型,从而探索其在科学发现中的应用。
解决学术问题
SRSD-Feynman (Easy) 数据集解决了符号回归在科学发现中的关键学术问题。通过提供精心设计的物理公式及其变量的采样范围,该数据集使得研究人员能够评估符号回归方法在从数据中重新发现物理定律的能力。这不仅推动了符号回归技术的发展,还为数据驱动的科学发现提供了新的研究方向,具有重要的学术意义和影响。
衍生相关工作
SRSD-Feynman (Easy) 数据集的发布催生了一系列相关的经典工作,特别是在符号回归和科学发现领域。研究人员基于该数据集开发了多种符号回归算法,并进行了广泛的性能评估和比较。此外,该数据集还激发了关于符号回归在科学发现中应用的深入讨论,推动了相关领域的研究进展。
以上内容由遇见数据集搜集并总结生成



