AnonymousGM/MultiSetTransformerData

Name: AnonymousGM/MultiSetTransformerData
Creator: AnonymousGM
Published: 2024-07-06 20:00:52
License: 暂无描述

Hugging Face2024-07-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/AnonymousGM/MultiSetTransformerData

下载链接

链接失效反馈

官方服务：

资源简介：

MultiSetTransformerData是一个大型数据集，旨在训练和验证神经符号回归模型。它专门用于解决多集符号骨架预测（MSSP）问题，如论文《Univariate Skeleton Prediction in Multivariate Systems Using Transformers》中所述。该数据集由人工生成的一元符号骨架组成，从中采样数学表达式，进而生成数据集。数据集中的Q1部分包含最多使用5个一元和二元操作符的数学表达式，并允许最多一个嵌套操作符。数据集结构包括训练集和验证集，每个集合由多个HDF5文件组成，每个文件包含5000个数据块，每个块对应一个一元符号骨架，并从中采样10个随机函数。数据加载方式通过Python代码示例展示。此外，还描述了用于构建表达式的词汇表及其生成方法，以及一些操作符的限制条件。

提供机构：

AnonymousGM

原始信息汇总

数据集概述

MultiSetTransformerData 是一个大型数据集，旨在用于训练和验证神经符号回归模型。该数据集设计用于解决多集符号骨架预测（MSSP）问题，但也可用于训练通用的符号回归模型。

数据集内容

数据集包含人工生成的单变量符号骨架，从中采样数学表达式，然后用于生成数据集。数据集分为训练集和验证集，存储在 Q1 文件夹中。

Q1 数据集结构

训练集：包含多个 HDF5 文件，每个文件包含 5000 个块。
验证集：包含多个 HDF5 文件，每个文件包含 5000 个块。

每个 HDF5 文件的结构如下：

json { "block_1": { "X": "支持向量，形状 (10000, 10)", "Y": "响应向量，形状 (10000, 10)", "tokenized": "符号骨架表达式使用词汇表进行标记化，列表", "exprs": "符号骨架表达式，字符串", "sampled_exprs": "从共同骨架采样的十个数学表达式" }, "block_2": { "X": "支持，形状 (10000, 10)", "Y": "响应，形状 (10000, 10)", "tokenized": "符号骨架表达式使用词汇表进行标记化，列表", "exprs": "符号骨架表达式，字符串", "sampled_exprs": "从共同骨架采样的十个数学表达式" }, ... }

每个块对应一个单变量符号骨架（即未定义常数值的函数），例如 c + c/(c*sin(c*x_1) + c)。从该骨架中采样 10 个随机函数，例如：

-2.284 + 0.48/(-sin(0.787*x_1) - 1.136)
4.462 - 2.545/(3.157*sin(0.422*x_1) - 1.826)

然后，对于第 (i) 个函数（其中 (i in [0, 1, ..., 9])），我们从一个均匀分布 (mathcal{U}(-10, 10)) 中采样一个包含 10000 个元素的支持向量 X[:, i]。支持向量 X[:, i] 在第 (i) 个函数上进行评估以获得响应向量 Y[:, i]。换句话说，一个块包含从 10 个共享相同符号骨架的不同函数生成的输入-输出数据。

数据加载

数据下载后，可以使用 Python 加载，如下所示：

python import os import glob import h5py

def open_h5(path): block = [] with h5py.File(path, "r") as hf: for group_name in hf: group = hf[group_name] X = group["X"][:] Y = group["Y"][:] tokenized = list(group["tokenized"]) exprs = group["exprs"][()].tobytes().decode("utf-8") sampled_exprs = [expr_str for expr_str in group["sampled_exprs"][:].astype(str)] block.append([X, Y, tokenized, exprs, sampled_exprs]) return block

train_path = data/Q1/training train_files = glob.glob(os.path.join(train_path, *.h5)) for tfile in train_files: block = open_h5(tfile)

词汇表和表达式生成

数据集使用的词汇表如下：

我们使用一种递归构建表达式树的方法，以先序方式进行，这使我们能够有效地执行某些条件和约束。例如，我们禁止某些运算符组合，并设置一元运算符嵌套深度的最大限制。

引用

使用以下 Bibtex 引用此数据集：

bibtex @INPROCEEDINGS{MultiSetSR, author="Giorgio Morales and John W. Sheppard", title="Univariate Skeleton Prediction in Multivariate Systems Using Transformers", booktitle="Machine Learning and Knowledge Discovery in Databases", year="2024", location = {Vilnius, Lithuania} }

搜集汇总

数据集介绍

构建方式

在符号回归研究领域，构建高质量的数据集对于模型训练至关重要。MultiSetTransformerData数据集的构建采用了一种系统化的生成方法，首先定义了一组允许的数学运算符及其组合约束，通过递归构建表达式树的方式生成一元符号骨架。每个骨架代表一种未定义常数的函数结构，随后从每个骨架中随机采样生成十个具体的数学表达式，并为每个表达式在定义域内均匀采样生成输入输出数据对。这一过程确保了数据既具有丰富的数学结构多样性，又避免了因运算符不当组合导致的简化或数值不稳定问题。

特点

该数据集的核心特征在于其专注于多集符号骨架预测问题，每个数据块包含了共享同一符号骨架的十个不同函数生成的数据，这模拟了现实系统中多个变量可能遵循相同数学关系的情形。数据集中的表达式严格限制了运算符的数量和嵌套深度，例如最多使用五个运算符且仅允许一层嵌套，这种设计平衡了表达式的复杂性与可学习性。此外，数据以高效的HDF5格式存储，结构清晰，每个文件包含大量数据块，便于大规模机器学习任务的批量加载与处理。

使用方法

为有效利用该数据集进行模型训练与验证，用户需首先下载数据文件。数据加载可通过Python中的h5py库实现，按照提供的代码示例遍历HDF5文件中的每个数据块，提取支持向量X、响应向量Y、符号骨架的标记化表示、骨架表达式字符串以及采样的具体表达式列表。训练集与验证集已预先划分，用户可直接用于神经符号回归模型的训练流程，例如使用Transformer架构学习从数据到符号骨架的映射。数据集的标准化格式确保了其与多种机器学习框架的兼容性。

背景与挑战

背景概述

在符号回归领域，传统方法常受限于复杂数学表达式的自动发现与建模。为应对这一挑战，AnonymousGM/MultiSetTransformerData数据集应运而生，其设计灵感源自2024年发表的论文《Univariate Skeleton Prediction in Multivariate Systems Using Transformers》。该数据集由相关研究团队构建，核心目标在于解决多集符号骨架预测问题，即从多元系统中推断共享结构基础的数学表达式框架。通过生成大规模人工合成的单变量符号骨架及其衍生的数学表达式与数据样本，该数据集为基于Transformer的神经网络模型提供了训练与验证基础，推动了符号回归在自动化科学发现与可解释机器学习方面的进展。

当前挑战

该数据集旨在应对符号回归中多集符号骨架预测的核心难题，即从高维数据中准确识别并重建共享抽象数学结构的挑战。具体而言，模型需在复杂运算符组合与嵌套约束下，从噪声数据中泛化出未观测的表达式模式，这对模型的表示学习与结构推理能力提出了极高要求。在构建过程中，研究者面临表达式生成的组合爆炸问题，必须精心设计词汇表与递归生成算法，避免无效或冗余的运算符组合，同时控制嵌套深度以防止数值溢出或表达式简化，确保生成的数据兼具多样性与数学合理性。

常用场景

经典使用场景

在符号回归领域，MultiSetTransformerData数据集为神经网络模型提供了系统化的训练与验证基础。其核心应用场景聚焦于多集符号骨架预测问题，通过生成共享同一数学骨架的多元函数数据块，支持模型从高维输入-输出对中推断潜在的符号结构。这一设计使得研究者能够利用Transformer等序列模型，从复杂数据中自动识别数学表达式的抽象模式，进而推动符号回归任务向更高效、可解释的方向发展。

解决学术问题

该数据集有效应对了符号回归中数据稀缺与结构复杂性带来的挑战，为多变量系统中单变量骨架预测提供了标准化基准。它通过人工生成的符号骨架与采样函数，解决了传统方法难以处理高维、非线性关系的局限，促进了神经网络在符号推理领域的可扩展性研究。其意义在于建立了数据驱动符号发现的新范式，为自动化数学建模与科学规律挖掘提供了可靠工具，推动了人工智能与计算科学的交叉融合。

衍生相关工作

基于该数据集，相关研究已衍生出多项经典工作，特别是在Transformer架构的符号回归模型优化方面。例如，原论文提出的多集骨架预测框架被扩展至多变量符号回归任务，启发了后续研究如符号神经网络的注意力机制改进、骨架约束下的表达式生成算法等。这些工作进一步推动了符号回归在自动化科学发现、教育技术及智能计算中的应用深度与广度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集