SYNTEXIS
收藏github2025-10-31 更新2025-11-03 收录
下载链接:
https://github.com/ArnavSharma938/SYNTEXIS
下载链接
链接失效反馈官方服务:
资源简介:
SYNTEXIS是一个用于端到端和基于过程的数学推理评估基准,包含146个问题的数据集,评估模型在自然语言提示理解、自动形式化为结构化表示以及逐步执行求解的整个问题解决过程中的性能。它提出了两个新颖的评估指标:最终答案准确性(FAA),使用符号分析严格检查数学等价性;过程健全性评分(PSS),采用过程奖励模型(PRM)在逐步验证思维链推理中评估推理步骤的逻辑。
SYNTEXIS is an end-to-end and process-based benchmark for mathematical reasoning evaluation, consisting of a dataset with 146 questions. It evaluates model performance across the entire problem-solving workflow, including natural language prompt understanding, automatic formalization into structured representations, and step-by-step solution execution. This benchmark proposes two novel evaluation metrics: Final Answer Accuracy (FAA), which rigorously checks mathematical equivalence through symbolic analysis; and Process Soundness Score (PSS), which employs a Process Reward Model (PRM) to assess the logical validity of reasoning steps during step-by-step chain-of-thought inference validation.
创建时间:
2025-10-31
原始信息汇总
SYNTEXIS 数据集概述
数据集简介
SYNTEXIS 是一个用于评估大语言模型数学推理能力的基准测试,专注于端到端和基于过程的评估。该基准测试通过评估整个问题解决过程来评估模型性能:自然语言提示的理解、将其自动形式化为结构化表示,以及逐步执行求解过程。
数据集规模
- 包含146个问题的数据集
核心评估指标
格式成功率 (FSR)
- 基本但必要的检查,用于验证模型输出是否符合要求的格式(将最终答案包含在
oxed{...}环境中) - 作为开发指标,用于验证集成的模型是否返回能够进行公平评估的适当答案格式
最终答案准确率 (FAA)
- 超越简单字符串匹配的评估指标
- 使用基于SymPy的分层符号解析系统来评估模型提取的最终答案与真实答案的数学等价性
- 能够稳健处理各种数学符号和类型
过程合理性评分 (PSS)
- 评估模型思维链逻辑完整性的新指标
- 通过符号验证推理过程中每个数学主张的真实性
- 解析每个步骤,识别数学断言,并基于前面的步骤验证其真实性
- 最终得分是有效主张与总主张的比率
注意事项
- 该基准测试在基于Qwen的模型上可能表现不公平,因为负责计算PSS的过程奖励模型是基于Qwen的,可能导致偏差
支持模型
mistralai/Mathstral-7B-v0.1deepseek-ai/deepseek-math-7b-instruct
基准测试结果
| 模型 | FSR (%) | FAA (%) | PSS (%) |
|---|---|---|---|
mistralai/Mathstral-7B-v0.1 |
100.00 | 34.93 | 57.72 |
deepseek-ai/deepseek-math-7b-instruct |
100.00 | 43.15 | 60.41 |
结果基于A100 80GB GPU,42种子的完整数据集运行获得
引用信息
bibtex @misc{SharmaSyntexis, title={Benchmarking Autoformalization and Subsequent Execution of Mathematical Reasoning in Large Language Models through Chain-of-Thought}, author={Arnav Sharma and Drishti Sharma and Ahmed Wez and Brandon Yee}, year={2025}, eprint={2401.XXXXX}, archivePrefix={arXiv}, primaryClass={cs.LG}, note={Presented at TBD, CortexPD Labs and Yee-Collins Research Group} }
搜集汇总
数据集介绍

构建方式
在数学推理评估领域,SYNTEXIS数据集的构建采用了系统性工程方法。该数据集包含146道经过严格筛选的数学问题,这些问题覆盖了从基础算术到复杂代数等多个数学分支。每个问题都配备了自然语言描述的标准答案,并通过符号化解析系统生成可验证的推理步骤。特别值得注意的是,数据集设计时充分考虑了数学表达的多样性,确保能够全面检验大语言模型的自动形式化能力。
特点
该数据集最显著的特征在于其创新的评估维度。除了传统的最终答案准确性指标外,还引入了过程合理性评分机制,通过符号化验证方法对推理链中每个数学断言进行逻辑完整性检验。数据集支持对多种数学表达形式的等效性判断,包括分式、方程和不等式等复杂结构。这种多维度评估体系能够精确识别模型在数学推理过程中出现的具体错误模式,为改进模型提供了明确方向。
使用方法
研究人员可通过标准化流程使用该数据集进行模型评估。首先需要配置支持CUDA的GPU环境并安装指定依赖包,随后可选择完整测试或子集验证两种运行模式。评估过程会自动执行格式检查、答案准确性分析和推理过程验证三个核心环节,最终生成包含格式成功率、最终答案准确率和过程合理性得分的综合报告。这种模块化设计使得不同规模的模型都能获得公平且可重复的评估结果。
背景与挑战
背景概述
在大型语言模型数学推理评估领域,传统基准主要聚焦于最终答案的正确性,这种单一维度的评估难以区分模型是通过有效推理还是偶然巧合得出正确结论。SYNTEXIS基准由CortexPD实验室与Yee-Collins研究组于2025年联合提出,其核心研究目标在于构建端到端的数学推理过程评估体系。该数据集包含146道数学问题,通过引入自然语言理解、自动形式化与分步执行的三阶段评估框架,显著提升了数学推理能力评估的维度与深度,为揭示模型推理机制的内在规律提供了重要实验基础。
当前挑战
该数据集致力于解决数学推理评估中过程验证的挑战,传统方法难以量化推理链条的逻辑一致性,而SYNTEXIS通过过程合理性评分实现了对推理步骤的符号化验证。在构建过程中面临多重技术难题:首先需要设计能同时处理自然语言与数学符号的混合解析系统,其次需建立能抵抗表示形式变化的数学等价性判定机制,最后还需克服过程奖励模型可能存在的评估偏差问题,这些挑战共同构成了该领域技术突破的关键瓶颈。
常用场景
经典使用场景
在数学推理评估领域,SYNTEXIS数据集通过链式思维(Chain-of-Thought)方法,系统性地测试大型语言模型对自然语言数学问题的自动形式化与逐步求解能力。其核心应用场景包括模型对问题表述的理解、结构化转换及符号化执行过程的完整性验证,为研究者提供了从输入到输出的全流程分析框架。
解决学术问题
该数据集突破了传统数学评估仅关注最终答案正确性的局限,通过最终答案准确率(FAA)与过程合理性评分(PSS)双指标体系,有效区分了模型推理过程中的逻辑严谨性与数学等价性。这解决了因无效推理导致正确答案的评估盲区,为数学自动推理的可解释性研究奠定了实证基础。
衍生相关工作
基于SYNTEXIS的评估范式,衍生出多模态数学推理验证、符号计算与神经符号结合等研究方向。其过程奖励模型(PRM)的设计启发了对推理链进行符号化验证的新方法,推动了如数学定理自动证明、程序合成等领域的评估标准演进。
以上内容由遇见数据集搜集并总结生成



