POVE
收藏Hugging Face2025-02-25 更新2025-02-26 收录
下载链接:
https://huggingface.co/datasets/ksfong/POVE
下载链接
链接失效反馈官方服务:
资源简介:
POVE(预优化表达式库)是一个为了推动符号回归研究而创建的数据集,它包含了一个大的预优化数学表达式库。该数据集基于SRBench基准的回归问题构建,其中的数值参数已经预先使用BFGS算法进行了优化,从而在运行时消除了计算数值优化的需求。每个表达式都存储有其结构形式、优化的常数和在训练集和测试集上的评估指标。POVE使得大规模的符号回归基准测试、算法评估以及泛化、搜索效率和超参数调整研究成为可能。通过提供预先计算的性能指标,POVE显著减轻了符号回归实验的计算负担,使得计算资源有限的研究人员能够更容易地进行大规模实验。此外,POVE引入了算法无关的基准,如最佳(POVE)和随机(POVE),为评估符号回归搜索策略提供了新的方法。
POVE (Pre-Optimized Expression Library) is a dataset developed to advance symbolic regression research, encompassing a large-scale library of pre-optimized mathematical expressions. Built upon the regression problems from the SRBench benchmark, the numerical parameters of each expression have been pre-optimized using the BFGS algorithm, eliminating the need for runtime numerical optimization computations. Each expression is accompanied by its structural form, optimized constants, and evaluation metrics evaluated on both the training and test sets. POVE enables large-scale symbolic regression benchmarking, algorithm evaluation, as well as research on generalization, search efficiency, and hyperparameter tuning. By providing pre-computed performance metrics, POVE significantly reduces the computational burden of symbolic regression experiments, allowing researchers with limited computational resources to conduct large-scale experiments more easily. Furthermore, POVE introduces algorithm-agnostic benchmarks, such as the optimal (POVE) and random (POVE) baselines, providing novel approaches for evaluating symbolic regression search strategies.
创建时间:
2025-02-15
搜集汇总
数据集介绍

构建方式
POVE数据集的构建基于对SRBench基准集中的回归问题进行预处理,运用BFGS算法预先优化表达式中的数值参数,从而形成了一个包含大量预优化数学表达式的存储库。该数据集包括结构形式的表达式、优化的常数以及训练集和测试集上的评估指标,其构建过程旨在消除运行时计算成本高昂的数值优化需求。
特点
POVE数据集的特点在于它提供了一个算法无关的基准,包含预先计算的性能指标,极大地减轻了符号回归实验的计算负担。此外,它通过提供结构化的符号表达式集和已知的性能指标,促进了算法评估、泛化分析、搜索效率研究以及超参数调优等新研究方向的探索。
使用方法
POVE数据集以.feather格式存储,可以直接被Python中的Pandas或Polars工具使用。该数据集支持多种符号回归研究方向和应用场景,包括加速符号回归评估、评估SR一致性、大规模探索超参数、创建新的SR基线、研究SR的泛化能力以及按难度分类SR问题。用户可以通过提供的示例代码,如basic_examples.ipynb和test_POVE_GPSR.ipynb,来加载和使用POVE数据集。
背景与挑战
背景概述
POVE(Preoptimized Vault of Expressions)数据集是一项旨在推进符号回归(Symbolic Regression, SR)研究的成果,由新加坡国立大学的Kei Sen Fong等人创建于2021年。该数据集的核心研究问题是减轻SR领域中数值优化常数的计算负担,通过预先使用BFGS算法优化数值参数,从而在运行时无需进行昂贵的数值优化。POVE的构建不仅为SR算法的评价、基准测试提供了丰富的资源,也为算法的泛化能力、搜索效率和超参数调整等研究提供了便利。该数据集的创建显著降低了SR实验的计算成本,使得拥有有限计算资源的研发人员能够进行大规模实验。POVE数据集的问世,对于推动机器学习领域的发展具有重要意义,其研究成果已发表在Neurips Track on Datasets and Benchmarks上。
当前挑战
POVE数据集在构建过程中遇到的挑战主要包括:1)如何高效地生成和优化大量的符号表达式,保证数据集的多样性和代表性;2)如何平衡数据集的大小与计算资源的可用性,确保数据集既实用又便于存储和检索。在所解决的领域问题上,POVE数据集面临的挑战包括:如何准确评估和比较不同SR算法的性能,以及如何利用预先优化的常数进行有效的基准测试,从而推动SR算法研究的进展。
常用场景
经典使用场景
POVE数据集作为符号回归(Symbolic Regression, SR)领域的重要资源,其经典使用场景主要在于为研究者提供了一系列预先优化过的数学表达式,这些表达式经过BFGS算法优化,无需在运行时进行计算成本高昂的数值优化。研究者可以直接加载这些表达式,进行算法评估、基准测试、泛化能力研究、搜索效率分析以及超参数调试等。
解决学术问题
POVE数据集解决了符号回归研究中一个主要的计算瓶颈问题,即表达式中数值参数的重复优化。该数据集的优化常数和性能指标,极大减轻了研究者在进行大规模实验时的计算负担,同时促进了算法的可重复性研究。此外,POVE通过引入算法无关的基准测试,为评估搜索策略提供了新的途径。
衍生相关工作
基于POVE数据集,研究者已经衍生出了一系列相关工作,包括但不限于对现有SR算法的改进、新算法的设计、以及针对特定问题领域的符号回归方法研究。这些工作不仅扩展了POVE的应用范围,也促进了符号回归领域的学术交流和进步。
以上内容由遇见数据集搜集并总结生成



