five

synpat-dataset

收藏
Hugging Face2025-05-20 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/Karan0901/synpat-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SynPAT数据集是一个用于符号回归和科学发现算法基准测试的合成物理理论和数据生成系统。它包含了多个配置的符号物理系统,每个系统由符号方程、维数一致的变量和常数、代数结果以及清洁和带噪声的数据集组成。数据集按配置和系统索引进行组织,每个配置包含三个系统实例,总共覆盖36个配置和108个系统。
创建时间:
2025-05-16
原始信息汇总

SynPAT数据集概述

数据集基本信息

  • 名称: SynPAT (Synthetic Physical Theories with Data)
  • 用途: 为符号回归和科学发现算法提供基准测试
  • 标签: synthetic-data, physics, symbolic-regression, scientific-discovery, physical-theories
  • 许可证: MIT

数据集结构

目录结构

dataset/{config}/System_{n}/

  • {config}格式: vars_{v}_derivs_{d}_eqns_{e}
    • v ∈ {6,7,8,9} (符号变量数量)
    • d ∈ {2,3,4} (导数数量)
    • e ∈ {4,5,6} (方程数量)
  • n ∈ {1,2,3} (系统实例索引)

文件组成

每个System_{n}包含17个文件:

  1. 基础文件 (2个)
    • system.txt: 基础符号系统(含变量、常量、导数、方程和单位)
    • consequence.txt: 派生结果方程(含额外元数据)
  2. 无噪声数据 (2个)
    • system.dat: 系统数值数据
    • consequence.dat: 结果多项式数据
  3. 含噪声数据 (8个)
    • system_ε.datconsequence_ε.dat(ε ∈ {0.001,0.01,0.05,0.1})
  4. 替换系统 (5个)
    • replacement_1.txtreplacement_5.txt

规模统计

  • 36种配置组合
  • 108个系统实例
  • 1836个文件

文件格式示例

system.txt

包含:

  • 变量列表
  • 常量列表
  • 导数列表
  • 方程组
  • 各单位量纲

consequence.txt

额外包含:

  • 测量变量
  • 观测常量
  • 测量导数
  • 目标多项式

replacement_i.txt

格式同system.txt,但替换了一个公理

数据文件(.dat)

  • 首行为变量顺序标题
  • 每行代表一个数据点
  • 噪声版本添加高斯噪声

作者信息

  • Karan Srivastava (威斯康星大学麦迪逊分校)
  • Jonathan Lenchner (IBM T.J. Watson研究中心)
  • Joao Goncalves (IBM T.J. Watson研究中心)
  • Lior Horesh (IBM T.J. Watson研究中心)

相关资源

  • GitHub项目: https://github.com/jlenchner/theorizer
搜集汇总
数据集介绍
main_image_url
构建方式
在物理系统建模研究领域,SynPAT数据集采用符号生成方法构建,通过维度一致性约束生成完整的物理理论体系。该数据集基于变量数量、导数阶数和方程数量的组合配置,形成36种不同复杂度的理论系统。每个系统包含基础符号方程、代数推论方程以及替换变体,并通过数值模拟生成对应的无噪声数据集和四种不同噪声水平的高斯扰动数据,确保理论表达与数值实现的高度一致性。
特点
该数据集最显著的特征在于其严格遵循物理量纲一致性原则,所有生成的符号方程均附带完整的单位量纲信息。数据集提供多层级噪声模拟,涵盖从0.001到0.1四种不同强度的噪声水平,为算法鲁棒性评估提供丰富场景。独特的替换系统设计通过替换单个公理生成变体理论,为理论完备性验证和溯因推理研究提供重要支撑。
使用方法
研究人员可通过分层目录结构访问不同配置的理论系统,利用系统文件中的符号表达式进行理论分析,同时结合对应的数据文件开展符号回归实验。数据集支持多种应用模式:基于无噪声数据的精确理论发现、利用噪声数据的鲁棒性测试、通过替换系统的理论完备性验证,以及基于推论方程的多任务学习。数据文件的标准化格式便于直接导入主流机器学习框架进行算法开发与性能评估。
背景与挑战
背景概述
在符号回归与科学发现算法研究领域,SynPAT数据集由威斯康星大学麦迪逊分校与IBM T.J.沃森研究中心的联合团队于2023年构建,旨在通过生成符号化物理系统及其对应合成数据,解决复杂物理理论建模中的基准测试难题。该数据集通过维度一致性约束的变量、常数与微分方程构建,覆盖36种参数配置下的108个独立系统,为物理规律发现与方程推导提供了标准化评估框架,显著推动了计算物理学与人工智能交叉领域的发展。
当前挑战
该数据集核心挑战在于符号回归任务中高维非线性方程的精确重构,需克服噪声干扰下多项式结构的稳定性识别问题。构建过程中面临维度一致性约束的符号系统生成难题,包括微分方程拓扑结构的自动合成、物理单位系统的动态匹配,以及多层级噪声注入对算法鲁棒性的量化评估。此外,替代系统的生成需在保持物理意义的前提下实现公理替换的维度兼容性验证。
常用场景
经典使用场景
在符号回归与科学发现算法的评估领域,SynPAT数据集通过生成维度一致的符号物理系统及其对应数据,为算法性能提供了标准化测试平台。该数据集包含从基础方程到派生多项式的完整理论框架,并涵盖不同噪声水平下的数据变体,使得研究者能够系统性地验证算法在噪声干扰与理论完整性方面的鲁棒性。
衍生相关工作
基于该数据集衍生的经典研究包括理论溯因框架的构建与符号回归算法的系统性评估。相关工作中,替换系统文件被广泛用于公理重要性分析,而多维噪声数据则催生了面向物理约束的鲁棒学习算法,这些成果显著推进了可解释人工智能在科学发现领域的发展进程。
数据集最近研究
最新研究方向
在物理系统建模与符号回归领域,SynPAT数据集正推动科学发现算法的前沿探索。该数据集通过生成维度一致的符号方程系统及含噪声数据,为评估机器学习模型在复杂物理规律推导中的鲁棒性提供了基准平台。当前研究聚焦于利用其多层次噪声注入与公理替换机制,开发能够从扰动数据中恢复底层物理定律的神经符号计算方法,同时探索维度约束与代数推理在可解释人工智能中的融合路径。这一方向不仅加速了自动科学理论发现工具的成熟,更在流体力学与量子系统建模等跨学科场景中展现出深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作