mheight_function_8

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/ACDRepo/mheight_function_8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含大小为8的排列及其对应的mHeight值，排列以1行表示法存储。mHeight是一个与排列中的所有3412模式相关的统计量，该数据集用于训练机器学习模型以预测排列的mHeight值。数据集分为训练集和测试集，包含0到4的mHeight值。这是一个分类任务，旨在通过机器学习重新发现mHeight的表示法。

创建时间：

2025-07-26

搜集汇总

数据集介绍

构建方式

在代数组合学领域，mHeight_function_8数据集的构建依托于SageMath计算平台，系统生成了所有8阶排列并精确计算其mHeight值。该过程通过检测排列中的3412模式，即满足特定顺序条件的四元组，并计算每个模式的高度差，最终取所有模式中的最小高度作为该排列的mHeight标签。数据集采用严格的一行表示法记录排列，确保了数学表达的准确性与一致性。

特点

该数据集聚焦于8阶排列的mHeight统计量，其标签值分布于0至4的离散分类空间，呈现出显著的长尾分布特性。训练集包含7312个样本，测试集1829个样本，其中mHeight值为0的样本占主导地位，高阶值样本稀少，这为机器学习模型处理类别不平衡问题提供了典型场景。数据本质源于组合数学理论，具有明确的代数几何背景，为探索数学模型理解抽象数学概念提供了实验基础。

使用方法

研究者可将该数据集应用于分类任务，旨在通过机器学习模型重新发现mHeight函数的数学定义。使用时应注意到类别分布的不均衡性，建议采用分层抽样或加权损失函数等技术。基准实验表明多层感知机与Transformer架构可达99%以上的准确率，显著优于逻辑回归的91.4%。数据集以CC-by-2.0许可发布，支持学术研究对Kazhdan-Lusztig多项式及相关几何结构的深入探索。

背景与挑战

背景概述

在代数组合学与表示理论的交叉领域，mHeight_function_8数据集由太平洋西北国家实验室的Herman Chau团队于2025年构建，旨在探索机器学习在纯数学证明中的潜在作用。该数据集源于Gaetz与Gao对Billey-Postnikov猜想的突破性证明，其中mHeight作为排列中3412模式的最小高度统计量，成为卡兹丹-卢斯蒂格多项式系数研究的关键工具。其构建不仅推动了代数组合学中模式 avoidance 理论的深化，更为机器学习理解高阶数学证明的中间步骤提供了实证基础。

当前挑战

该数据集核心挑战在于从排列结构中自动识别非平凡的mHeight函数，这要求模型捕捉3412模式的几何特征与高度计算规则。构建过程中需处理组合爆炸问题：8阶排列虽仅40320种，但3412模式的检测涉及四元组枚举与高度优化，计算复杂度呈指数增长。此外，数据分布高度不均衡，mHeight值为4的样本仅存1例，对分类模型的泛化能力构成严峻考验。

常用场景

经典使用场景

在代数组合学与表示理论的研究中，mheight_function_8数据集被广泛应用于探索置换模式与Kazhdan-Lusztig多项式之间的深层联系。该数据集通过计算大小为8的置换中3412模式的最小高度，为研究Schubert簇的几何性质提供了量化工具，尤其在分析多项式系数与光滑性条件时具有关键作用。

解决学术问题

该数据集直接关联于Billey-Postnikov猜想的证明过程，通过量化3412模式的高度特征，解决了Kazhdan-Lusztig多项式最小幂次预测的难题。其意义在于将组合模式与代数几何的抽象概念转化为可计算的形式，为机器学习介入纯数学证明提供了实证基础，推动了计算代数与组合优化领域的交叉发展。

衍生相关工作

该数据集催生了多项机器学习与组合数学交叉的研究，如Gaetz-Gao的Kazhdan-Lusztig多项式最小幂次定理的证明工作。后续研究扩展至更高维置换的mHeight预测，并衍生出基于Transformer的符号推理模型，为自动化数学猜想验证提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集