mheight_function_8
收藏Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/ACDRepo/mheight_function_8
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含大小为8的排列及其对应的mHeight值,排列以1行表示法存储。mHeight是一个与排列中的所有3412模式相关的统计量,该数据集用于训练机器学习模型以预测排列的mHeight值。数据集分为训练集和测试集,包含0到4的mHeight值。这是一个分类任务,旨在通过机器学习重新发现mHeight的表示法。
创建时间:
2025-07-26
搜集汇总
数据集介绍

构建方式
在代数组合学领域,mHeight_function_8数据集的构建依托于SageMath计算平台,系统生成了所有8阶排列并精确计算其mHeight值。该过程通过检测排列中的3412模式,即满足特定顺序条件的四元组,并计算每个模式的高度差,最终取所有模式中的最小高度作为该排列的mHeight标签。数据集采用严格的一行表示法记录排列,确保了数学表达的准确性与一致性。
特点
该数据集聚焦于8阶排列的mHeight统计量,其标签值分布于0至4的离散分类空间,呈现出显著的长尾分布特性。训练集包含7312个样本,测试集1829个样本,其中mHeight值为0的样本占主导地位,高阶值样本稀少,这为机器学习模型处理类别不平衡问题提供了典型场景。数据本质源于组合数学理论,具有明确的代数几何背景,为探索数学模型理解抽象数学概念提供了实验基础。
使用方法
研究者可将该数据集应用于分类任务,旨在通过机器学习模型重新发现mHeight函数的数学定义。使用时应注意到类别分布的不均衡性,建议采用分层抽样或加权损失函数等技术。基准实验表明多层感知机与Transformer架构可达99%以上的准确率,显著优于逻辑回归的91.4%。数据集以CC-by-2.0许可发布,支持学术研究对Kazhdan-Lusztig多项式及相关几何结构的深入探索。
背景与挑战
背景概述
在代数组合学与表示理论的交叉领域,mHeight_function_8数据集由太平洋西北国家实验室的Herman Chau团队于2025年构建,旨在探索机器学习在纯数学证明中的潜在作用。该数据集源于Gaetz与Gao对Billey-Postnikov猜想的突破性证明,其中mHeight作为排列中3412模式的最小高度统计量,成为卡兹丹-卢斯蒂格多项式系数研究的关键工具。其构建不仅推动了代数组合学中模式 avoidance 理论的深化,更为机器学习理解高阶数学证明的中间步骤提供了实证基础。
当前挑战
该数据集核心挑战在于从排列结构中自动识别非平凡的mHeight函数,这要求模型捕捉3412模式的几何特征与高度计算规则。构建过程中需处理组合爆炸问题:8阶排列虽仅40320种,但3412模式的检测涉及四元组枚举与高度优化,计算复杂度呈指数增长。此外,数据分布高度不均衡,mHeight值为4的样本仅存1例,对分类模型的泛化能力构成严峻考验。
常用场景
经典使用场景
在代数组合学与表示理论的研究中,mheight_function_8数据集被广泛应用于探索置换模式与Kazhdan-Lusztig多项式之间的深层联系。该数据集通过计算大小为8的置换中3412模式的最小高度,为研究Schubert簇的几何性质提供了量化工具,尤其在分析多项式系数与光滑性条件时具有关键作用。
解决学术问题
该数据集直接关联于Billey-Postnikov猜想的证明过程,通过量化3412模式的高度特征,解决了Kazhdan-Lusztig多项式最小幂次预测的难题。其意义在于将组合模式与代数几何的抽象概念转化为可计算的形式,为机器学习介入纯数学证明提供了实证基础,推动了计算代数与组合优化领域的交叉发展。
衍生相关工作
该数据集催生了多项机器学习与组合数学交叉的研究,如Gaetz-Gao的Kazhdan-Lusztig多项式最小幂次定理的证明工作。后续研究扩展至更高维置换的mHeight预测,并衍生出基于Transformer的符号推理模型,为自动化数学猜想验证提供了新范式。
以上内容由遇见数据集搜集并总结生成



