APOFront

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/fongks/APOFront

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集为符号回归基准测试数据集，包含34个现实世界数据集的Pareto最优解前沿。这些前沿解为评估符号回归算法性能提供了有用的基线，并能够告知研究人员在选择特定大小的表达式时所能达到的最佳性能。数据集以csv格式组织，记录了每个表达式的长度、结构、参数、优化迭代次数、均方误差和R平方分数。

创建时间：

2025-05-28

原始信息汇总

数据集概述：APO Front for Symbolic Regression

数据集基本信息

许可证: cc-by-4.0
创建者: Kei Sen Fong (新加坡国立大学)

数据集描述

该数据集伴随论文《Pareto-Optimal Fronts for Benchmarking Symbolic Regression Algorithms》发布，旨在为符号回归（SR）算法提供基准测试。符号回归的任务是寻找描述数据集中变量关系的最佳闭式表达式。数据集通过穷举搜索特定大小的表达式，找到绝对帕累托最优（APO）前沿，以评估SR算法在预测性能（R-squared分数）和表达式简洁性之间的权衡。

数据集内容

主要文件

Extracted_APO_Fronts: 包含从APOv3和APOv4提取的APO前沿数据，文件格式为CSV。
APOv3.zip 和 APOv4.zip: 包含所有评估表达式的原始数据，包括优化的数值参数和性能指标。

文件命名格式

{dataset_name}_{Method}_{head_length}_{random_state}_summary.csv (APO前沿文件)
{dataset_name}_{Method}_{head_length}_{random_state}.csv (原始数据文件)

数据列

EquationLength: 表达式长度
EquationStructure: 不含数值参数的表达式结构
EquationLambda: 代码形式的表达式结构
EquationParameters: 优化的数值参数
NumericalIterations: 数值优化方法的迭代次数
MSE: 均方误差
R2: R-squared分数

数据集用途

直接用途: 用于符号回归算法的基准测试，提供绝对帕累托最优前沿作为性能基准。
相关资源: 可与NeurIPS 2021的SRBench基准测试结果结合使用（参考链接：https://github.com/cavalab/srbench）。

数据集创建背景

创建动机

为34个真实世界数据集（来自SRBench）提供APO前沿数据，帮助研究者评估SR算法的效率和极限。

数据处理

代码: 生成原始数据文件的代码位于Code文件夹中。
计算资源: 部分计算工作由新加坡国家超级计算中心完成（https://www.nscc.sg）。

联系方式

联系人: Kei Sen Fong
邮箱: fongkeisen@u.nus.edu

搜集汇总

数据集介绍

构建方式

在符号回归领域，APOFront数据集的构建采用了系统性研究方法。研究者通过基因表达编程技术详尽搜索不同长度的K表达式，结合BFGS等多种数值优化方法，对SRBench中的34个真实世界数据集进行深度分析。数据集构建过程中，特别关注表达式长度与R平方分数之间的帕累托最优关系，采用多随机种子验证确保结果的可靠性，最终形成包含完整评估指标的原始数据文件（APOv3和APOv4）以及提炼后的帕累托前沿结果。

特点

该数据集的核心价值在于提供了符号回归算法的绝对性能基准。不同于传统相对评估方式，其帕累托前沿结果揭示了表达式复杂度与预测精度之间的理论最优平衡点。数据集包含方程结构、参数优化过程、迭代次数及多种评估指标等7个关键维度，文件命名采用标准化格式'{数据集名}_{方法}_{头长度}_{随机状态}'，便于研究者进行跨算法性能比较。特别值得注意的是，原始数据囊括了所有评估表达式而不仅是帕累托最优解，为算法改进提供全面参考。

使用方法

使用该数据集时，研究者可通过'Extracted_APO_Fronts'目录快速获取各数据集的帕累托前沿基准。csv文件中的方程结构、lambda表达式和优化参数等字段，支持直接用于符号回归算法的性能验证。建议配合SRBench等基准测试平台使用，通过比较算法输出与数据集中的R平方分数和方程长度，量化评估算法在帕累托最优性方面的表现。对于深度分析需求，可进一步探索APOv3和APOv4中的完整评估数据，研究不同数值优化方法对最终结果的影响。

背景与挑战

背景概述

APOFront数据集由新加坡国立大学的Kei Sen Fong等人创建，旨在为符号回归（Symbolic Regression, SR）算法的基准测试提供绝对帕累托最优前沿（Absolute Pareto-Optimal Front, APO Front）。符号回归的核心任务是从数据中寻找既能高精度预测又能保持表达式简洁的数学模型。传统方法仅以预测性能（如R平方分数）为评价标准，而忽略了模型的可解释性。该数据集通过穷举搜索基因表达式编程中的K-表达式，结合多种数值优化方法，构建了34个真实世界数据集的APO前沿，为SR算法提供了绝对性能基准，推动了符号回归领域从相对性能评估向绝对性能评估的转变。

当前挑战

APOFront数据集面临的主要挑战包括：1) 领域问题方面，符号回归需同时优化预测精度（如R平方分数）和表达式简洁性，两者存在天然冲突，如何量化并平衡这种多目标权衡是核心难题；2) 构建过程中，穷举搜索高维表达式空间的计算复杂度极高，需借助超算资源（如新加坡国家超算中心）完成；3) 数值优化方法（如BFGS算法）的选择对最终表达式性能影响显著，需系统评估不同优化器的稳定性与效率差异。此外，将APO前沿转化为可操作的基准测试标准仍需解决评价指标统一性问题。

常用场景

经典使用场景

在符号回归（Symbolic Regression, SR）领域，APOFront数据集被广泛用于评估算法在真实世界数据集上的性能表现。通过提供帕累托最优前沿（Pareto-optimal front）的表达式集合，该数据集为研究人员提供了一个基准，用于比较不同算法在表达式复杂度和预测精度之间的权衡能力。经典使用场景包括在SRBench等基准测试中，验证算法是否能够逼近或超越这些绝对帕累托最优解。

解决学术问题

APOFront数据集解决了符号回归研究中一个关键问题：如何客观评估算法在表达式简洁性和预测准确性之间的平衡能力。传统方法仅依赖相对性能比较，而该数据集通过提供绝对帕累托最优解，为研究者揭示了在给定表达式长度下的最佳可能性能。这一突破性工作填补了符号回归领域缺乏绝对基准的空白，显著提升了算法评估的科学性和可重复性。

衍生相关工作

APOFront数据集催生了一系列符号回归算法的改进研究，包括基于基因表达式编程的优化方法和数值参数优化技术的比较分析。相关工作如NeurIPS 2021的SRBench基准测试直接采用了该数据集的评估框架。后续研究还拓展了帕累托最优概念在多层次符号回归中的应用，并启发了对Broyden-Fletcher-Goldfarb-Shanno（BFGS）等数值优化方法的系统性评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集