symmetric_group_characters_20
收藏Hugging Face2025-07-15 更新2025-07-15 收录
下载链接:
https://huggingface.co/datasets/ACDRepo/symmetric_group_characters_20
下载链接
链接失效反馈官方服务:
资源简介:
对称群S_n的不可约表示的字符数据集,其中n=20。数据集通过整数分割对索引不可约表示的字符,包含S_20的训练集和测试集。
A character dataset for irreducible representations of the symmetric group Sₙ, with n=20. This dataset indexes the characters of irreducible representations using integer partitions, and includes both the training and test sets for S₂₀.
创建时间:
2025-07-11
原始信息汇总
数据集概述:对称群不可约表示的特征(n=20)
数据集基本信息
- 名称:Characters of Irreducible Representations of Symmetric Groups, n = 20
- 许可证:CC-BY-2.0
- 维护者:Henry Kvinge
- 资助方:Pacific Northwest National Laboratory
- 生成工具:SageMath
- 数据生成脚本:GitHub仓库
数据集内容
- 数学背景:数据集包含对称群Sₙ(n=20)不可约表示的特征值χᵦᵧ,其中λ和μ是整数20的分区。
- 数据格式:每行数据由两个整数分区和一个整数值组成,例如
[3,1,1],[2,2,1],-2表示χ³,¹,¹₂,₂,₁ = -2。 - 数据量:
- 训练集:298,661条
- 测试集:74,819条
- 特征值范围:最大值249,420,600,最小值-17,592,960。
任务目标
- 机器学习任务:训练模型根据两个整数分区λ和μ预测对应的特征值χᵦᵧ。
- 数学算法参考:Murnaghan–Nakayama规则是计算对称群不可约表示特征的经典算法。
基准性能
| 模型类型 | 均方误差(×10¹²) |
|---|---|
| 线性回归 | 4.2007 |
| MLP | 4.2254 ± 0.51236 |
| Transformer | 5.3897 ± 0.36464 |
| 训练标签均值猜测 | 4.2007 |
数据集用途
- 主要用途:研究机器学习模型计算对称群不可约表示特征的能力。
- 限制用途:仅包含n=18,20,22的特征数据,其他n值需额外生成。
引用信息
- BibTeX:见原始README文件
- APA格式:Chau et al. (2025). arXiv preprint arXiv:2503.06366.
联系方式
- 联系人:Henry Kvinge
- 邮箱:acdbenchdataset@gmail.com
搜集汇总
数据集介绍

构建方式
在对称群表示论的研究中,该数据集通过SageMath计算平台系统生成,覆盖了对称群S₂₀的所有不可约表示特征标。每个数据实例由两个整数分拆(分别对应不可约表示和共轭类)及对应的整数特征标组成,确保了数据的数学严谨性与计算一致性。生成过程严格遵循组合算法,如Murnaghan-Nakayama规则,以保障特征标值的精确性。
特点
该数据集的核心特点在于其组合数学与表示论的深度交织,特征标值分布呈现高度集中 around 零值且具有显著长尾特性,极大值达249,420,600,极小值为-17,592,960。数据规模包含298,661个训练样本与74,819个测试样本,为机器学习模型提供了挑战性的回归任务,同时揭示了对称群表示中组合结构的复杂性。
使用方法
该数据集适用于训练回归模型,以两个整数分拆作为输入预测对应的特征标值。使用者需预处理分拆数据格式,并注意特征标的数值分布特性以避免训练偏差。基准测试表明,线性回归、MLP及Transformer等模型均面临显著预测误差,建议结合组合数学先验知识优化模型决策过程,探索是否隐含已知或新颖算法。
背景与挑战
背景概述
对称群表示理论作为代数组合数学的核心分支,其研究可追溯至20世纪初的Frobenius和Young等数学家的奠基性工作。该数据集由太平洋西北国家实验室的Henry Kvinge团队于2025年构建,专注于对称群S₂₀的不可约表示特征标计算。通过将群表示问题转化为整数分拆对的线性代数映射,该数据集为机器学习与纯数学的交叉研究提供了基准平台,推动了组合算法与深度学习模型的融合创新。
当前挑战
该数据集核心挑战在于高维组合空间的特征标预测:其一,特征标值分布呈现零中心化与长尾特性,最大绝对值达2.49亿而最小值为-1759万,对模型数值精度与泛化能力构成极端考验;其二,分拆对组合数量随整数n呈超指数增长,S₂₀的627种分拆方式衍生出39万组样本,需解决组合爆炸带来的计算复杂性;其三,传统Murnaghan-Nakayama规则虽提供组合算法基础,但机器学习模型需从数据中自主发现隐含的数学规律,这对可解释性算法设计提出更高要求。
常用场景
经典使用场景
在对称群表示理论研究中,该数据集为计算S₂₀不可约表示的特征值提供了标准化基准。研究者通过输入两个20的整数分拆(分别对应不可约表示和共轭类),能够精确获取特征值整数结果,这显著简化了传统组合算法(如Murnaghan-Nakayama规则)的计算流程,成为验证表示论与组合数学交叉领域理论的核心工具。
解决学术问题
该数据集解决了对称群表示理论中高维特征值计算的复杂性难题。通过提供S₂₀群所有不可约表示的特征值完整映射,它不仅支持表示论中特征值分布规律的研究,还为机器学习模型能否发现新型组合算法提供了检验平台,推动了代数组合学与计算数学的深度融合。
衍生相关工作
基于该数据集衍生的经典工作主要集中在算法发现与模型解释性研究。例如,通过Transformer架构探索特征值的预测机制,尝试识别模型是否复现了Murnaghan-Nakayama规则或发现了新算法。相关研究还扩展至群表示论的泛化问题,推动了代数组合机器学习基准(如ACD系列)的构建与发展。
以上内容由遇见数据集搜集并总结生成



