MaMo

arXiv2025-09-30 收录

下载链接：

https://github.com/lamda-bbo/madac

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于测试多智能体强化学习算法的基准，特别适用于动态算法配置在多目标优化问题中。它包含了多个已确立的多目标测试函数，如DTLZ2、DTLZ4以及WFG4至WFG9。数据集涵盖了不同目标数量的场景，包括3、5和7个目标的优化任务，其核心任务是动态算法配置。

This dataset is a benchmark for testing multi-agent reinforcement learning algorithms, and is particularly applicable to dynamic algorithm configuration in multi-objective optimization problems. It includes multiple well-established multi-objective test functions such as DTLZ2, DTLZ4, and WFG4 to WFG9. The dataset covers scenarios with varying numbers of objectives, including optimization tasks with 3, 5 and 7 objectives, and its core task is dynamic algorithm configuration.

搜集汇总

数据集介绍

构建方式

MaMo数据集的构建融合了人工筛选与GPT生成两种策略。人工筛选部分取材于经典的常微分方程与优化教材，每道题目均经过精心改写以契合基准测试的评估框架。数据合成阶段则先构建典型数学结构并注入随机参数以确立标准答案，随后借助GPT-4将抽象的数学形式转化为贴近现实的自然语言问题。全部数据均经由具备深厚数学背景的标注者与领域专家进行多轮交叉验证，确保题目在最终状态求解范式下的有效性与答案的准确性。

特点

该数据集的核心创新在于其评估范式的根本转变，从传统的结果导向转向过程导向，旨在深入探究大语言模型内在的数学建模能力。它巧妙地将求解任务委托给专门的求解器，从而规避了模型计算误差对建模能力评估的干扰。数据集覆盖了常微分方程与优化两大领域，共包含1059道精心设计的问题，其问题均要求数值答案并明确指定精度，为自动化验证提供了严谨的度量标准。

使用方法

在常微分方程部分，模型被要求根据自然语言描述生成Python代码，通过调用SciPy或SymPy等库中的求解器来获取数值解。在优化问题中，模型则需将问题表述为标准.lp格式文件，随后由COPT等专业求解器求解。为消除格式错误对评估的干扰，研究采用语言模型作为代码修正器，在不改变原始逻辑的前提下修复语法或格式问题，从而确保评估焦点始终锁定在模型的建模能力上。

背景与挑战

背景概述

数学建模作为连接现实世界与抽象数学表达的桥梁，在科学研究和工程实践中占据核心地位，然而其高度依赖领域专家经验，过程耗时且难以规模化。随着大型语言模型（LLM）在复杂推理任务中展现出惊人潜力，探索其自动化数学建模能力成为人工智能领域的前沿课题。在此背景下，香港中文大学（深圳）与深圳市大数据研究院的研究人员于2024年联合构建了MaMo基准数据集，旨在突破传统仅关注最终答案正确性的评估范式，转而聚焦于LLM在建模过程中的内在能力。该数据集涵盖常微分方程与线性规划两大领域，包含1059道精心设计的问题，通过引入求解器实现最终状态验证，为评估LLM的数学建模能力提供了全新视角与标准化框架，对推动LLM在科学计算与逻辑推理方向的发展具有重要学术价值。

当前挑战

MaMo数据集所面临的挑战主要体现于两个层面。在领域问题层面，数学建模要求LLM具备从自然语言描述中抽象出精确数学模型的能力，这一过程涉及对问题本质的深刻理解与形式化表达，远超越简单的算术求解，对LLM的逻辑推理与创造性思维构成严峻考验。在数据集构建层面，挑战尤为突出：首先，确保问题既能适配求解器的最终状态验证范式，又能真实反映建模过程，需在问题设计上精心平衡；其次，数据来源涵盖教科书与GPT生成，需通过专家严格审核与交叉验证以保证质量，但不同评审者间的一致性（Cohen's Kappa仅为0.60）表明主观判断存在偏差；此外，模型输出格式错误（如代码语法或.lp文件格式问题）会干扰对建模能力的纯粹评估，需借助代码修正器进行干预，而修正器的选择本身又可能引入额外变量，增加了评估的复杂性。

常用场景

经典使用场景

MaMo数据集的核心应用场景在于评估大语言模型（LLM）的数学建模能力。与传统数学基准不同，MaMo聚焦于建模过程而非最终答案的正确性，通过将求解任务委派给外部求解器（如COPT优化求解器和SciPy常微分方程求解器），实现对LLM抽象、形式化和构建数学模型的深度剖析。该数据集涵盖了常微分方程（ODE）与线性规划（LP）及混合整数线性规划（MILP）两大领域，包含1059道精心设计的问题，旨在测试模型从自然语言描述中提炼数学结构、生成可执行代码或标准.lp文件的能力，从而揭示其在真实世界问题中的建模潜力与局限。

衍生相关工作

MaMo的提出催生了一系列衍生工作。在其框架影响下，研究者进一步探索了LLM与符号求解器的深度融合，如OptiMUS专注于优化问题的自动建模与求解，LOGIC-LM则结合逻辑求解器增强推理可靠性。此外，MaMo所倡导的‘过程评估’理念被引入到更广泛的数学推理基准设计中，例如MathBench与OlympiadBench开始关注模型对理论知识的理解深度而非单纯答案正确性。同时，基于MaMo的代码修正策略（如利用GPT-4修复语法错误）启发了多种混合评估方法，推动了LLM在数学建模任务中自纠错与自适应能力的后续研究。

数据集最近研究