five

yoshitomo-matsubara/srsd-feynman_hard

收藏
Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yoshitomo-matsubara/srsd-feynman_hard
下载链接
链接失效反馈
官方服务:
资源简介:
SRSD-Feynman (Hard)数据集是一个用于讨论符号回归在科学发现中性能的数据集。该数据集基于Feynman符号回归数据库,精心设计了合理的采样范围,以便评估符号回归方法是否能够从数据中重新发现物理定律。数据集包含50个不同的物理公式,每个公式都有相应的训练、验证和测试数据分割,以及真实的方程表示。数据集的创建过程包括对每个变量的采样范围进行修订,以确保其符合典型的物理实验。数据集的主要注释者是Naoya Chiba和Ryo Igarashi。

The SRSD-Feynman (Hard) dataset is a benchmark dataset designed to evaluate the performance of symbolic regression in scientific discovery. Built upon the Feynman Symbolic Regression Database, it features carefully curated sampling ranges to assess whether symbolic regression methods can rediscover physical laws from observational data. The dataset comprises 50 distinct physical formulas, each accompanied by corresponding training, validation, and test data splits, as well as the ground-truth equation representations. During the dataset construction process, the sampling ranges for each variable were revised to ensure they conform to typical physical experimental settings. The primary annotators of this dataset are Naoya Chiba and Ryo Igarashi.
提供机构:
yoshitomo-matsubara
原始信息汇总

数据集概述

数据集名称

  • 名称: SRSD-Feynman (Hard)

数据集创建者

  • 注释创建者: 专家
  • 语言创建者: 专家生成

数据集属性

  • 语言: 英语
  • 许可: CC-BY-4.0
  • 多语言性: 单语
  • 大小: 100K<n<1M
  • 源数据集: 扩展
  • 任务类别: 表格回归

数据集描述

  • 概述: 该数据集旨在讨论符号回归在科学发现中的性能。数据集基于Feynman符号回归数据库,设计了合理的现实值采样范围,用于评估符号回归方法的潜力。
  • 任务: 符号回归

数据集结构

  • 数据实例: 表格数据 + 每条公式的真实方程
    • 表格数据: (num_samples, num_variables+1),其中最后一列表示给定变量的目标函数的输出。
    • 真实方程: 使用sympy表示的符号表示(方程式)的pickled文件。
  • 数据字段: 每个数据集包含训练分割、验证分割、测试分割和真实方程。
  • 数据分割:
    • 训练: 每条公式8,000个样本
    • 验证: 每条公式1,000个样本
    • 测试: 每条公式1,000个样本

数据集创建

  • 选择理由: 基于Feynman符号回归数据库选择目标方程。
  • 注释过程: 对Feynman符号回归数据库中的每个变量的采样范围进行了重大修订,以对应典型的物理实验。
  • 注释者: Naoya Chiba (@nchiba), Ryo Igarashi (@rigarash)

使用数据集的考虑

  • 社会影响: 该数据集假设典型的物理实验,将促进符号回归在科学发现中的研究。
  • 偏见讨论: 目标方程的选择基于Feynman符号回归数据库,主要关注物理学领域。
  • 其他已知限制: 数据集中的某些变量应视为整数,但由于32位整数的限制,某些变量被视为浮点数。

附加信息

  • 数据集管理者: Naoya Chiba (@nchiba), Ryo Igarashi (@rigarash)
  • 许可信息: 创意共享署名4.0
  • 引用信息: 参考文献[Matsubara2024rethinking]
  • 贡献者: Yoshitomo Matsubara (@yoshitomo-matsubara), Naoya Chiba (@nchiba), Ryo Igarashi (@rigarash), Yoshitaka Ushiku (@yushiku)
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于符号回归科学发现研究的硬集,包含50个不同的物理公式,旨在评估符号回归方法在重新发现物理定律方面的潜力。数据集提供了训练、验证和测试分割,分别包含8,000、1,000和1,000个样本,采用文本格式和英语语言,适用于科学发现研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作