ValiMath Dataset
收藏github2025-05-22 更新2025-05-28 收录
下载链接:
https://github.com/scuuy/MathQ-Verify
下载链接
链接失效反馈官方服务:
资源简介:
2,147个数学问题(1,299个正确,848个不正确)。5种错误类型:矛盾、不完整、领域不匹配等。逐步注释:用于彻底分析的每步有效性标签。
2,147 mathematics problems (1,299 correct, 848 incorrect). Five types of errors are included: contradiction, incompleteness, domain mismatch, etc. Step-by-step annotations: validity labels for each step to enable thorough analysis.
创建时间:
2025-05-11
原始信息汇总
MathQ-Verify 数据集概述
📌 基本信息
- 数据集名称: MathQ-Verify (ValiMath Dataset)
- 发布日期: 2025-05-21
- 访问地址: Hugging Face
- 相关论文: arXiv Paper
🎯 研究目标
- 解决大语言模型(LLMs)生成的数学问题中存在的隐藏缺陷(如矛盾、缺失前提等)。
- 通过五阶段验证流程确保数学问题数据集的可靠性。
🔧 核心贡献
-
MathQ-Verify框架
- 检测污染指令、语言错误、原子条件缺陷、逻辑矛盾及完整性缺失。
- 通过轻量级模型投票实现90%精确率和63%召回率。
-
ValiMath基准数据集
- 包含2,147个数学问题(1,299正确,848错误)。
- 提供5种错误类型的细粒度逐步有效性标注。
-
评估结果
- 在ValiMath上比基线方法提升15%的F1分数。
- 消融研究验证了各验证阶段的必要性。
📊 数据集详情
- 规模: 2,147个数学问题
- 标注类型:
- 正确问题: 1,299个
- 错误问题: 848个(含5种错误类型)
- 标注粒度: 逐步有效性标签
- 错误类型: 矛盾、不完整、领域不匹配等
📜 引用信息
bibtex @misc{shen2025letsverifymathquestions, title={Lets Verify Math Questions Step by Step}, author={Chengyu Shen and Zhen Hao Wong and Runming He and Hao Liang and Meiyi Qiang and Zimo Meng and Zhengyang Zhao and Bohan Zeng and Zhengzhou Zhu and Bin Cui and Wentao Zhang}, year={2025}, eprint={2505.13903}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.13903}, }
📮 联系方式
- GitHub Issues
- 邮箱: scuuy05@gmail.com
搜集汇总
数据集介绍

构建方式
ValiMath数据集的构建采用了MathQ-Verify五阶段验证框架,该框架通过系统化流程确保数学问题的严谨性。研究团队首先收集原始数学问题,随后通过轻量级模型投票机制进行多维度检测,包括指令污染、语言错误、原子条件缺陷、逻辑矛盾及完整性缺失等五类错误。构建过程中采用人工与算法协同标注策略,最终形成包含2,147道数学问题的精标数据集,其中1,299题为正确命题,848题标注了具体错误类型。
特点
该数据集的核心价值在于其细粒度的错误标注体系,每道问题均附带分步有效性标签,可精准定位错误发生的具体环节。区别于传统数学数据集,ValiMath特别关注命题的潜在缺陷,涵盖逻辑矛盾、前提缺失、领域不匹配等五类典型错误。数据分布方面,正确与错误命题保持约3:2的比例,这种平衡设计有助于模型全面学习数学命题的验证逻辑。所有问题均经过多阶段交叉验证,确保标注结果的可靠性达到90%的精确率标准。
使用方法
研究人员可通过Hugging Face平台直接加载数据集,其结构化格式支持多种分析维度。典型应用场景包括数学命题验证模型的训练与评估,用户可基于分步标签进行错误模式分析。使用建议将数据集划分为训练集与测试集,利用其丰富的错误类型标签进行多任务学习。对于特定研究需求,可提取原子条件或逻辑关系等子模块进行专项研究,数据集中提供的元数据支持复杂的筛选与组合查询。
背景与挑战
背景概述
ValiMath数据集由Chengyu Shen等研究人员于2025年提出,旨在解决大型语言模型(LLMs)生成的数学问题中存在的隐含缺陷问题,如矛盾或前提缺失等。该数据集由2,147个数学问题组成,每个问题均带有细粒度的逐步有效性标签,涵盖五种错误类型。其核心研究问题聚焦于如何通过多阶段验证流程确保数学问题的可靠性和准确性。MathQ-Verify框架作为该数据集的理论基础,通过轻量级模型投票实现了90%的精确度和63%的召回率,显著提升了数学问题验证的效能。ValiMath的发布为自然语言处理与数学教育交叉领域的研究提供了重要的基准工具。
当前挑战
ValiMath数据集面临的挑战主要体现在两个方面:领域问题的复杂性与构建过程的严谨性要求。在领域问题方面,数学问题的隐含缺陷(如逻辑矛盾或条件缺失)具有高度隐蔽性,传统验证方法难以全面覆盖。构建过程中,数据标注需要精确识别五种错误类型,并确保逐步验证标签的准确性,这对标注人员的数学素养与逻辑分析能力提出了极高要求。此外,框架的轻量化设计与高精度目标之间存在权衡,如何在有限计算资源下保持90%以上的精确度,成为技术实现的关键难点。
常用场景
经典使用场景
在数学问题生成与验证领域,ValiMath数据集为研究者提供了一个标准化的基准测试平台。该数据集通过精细标注的2147道数学题目,涵盖了五种常见错误类型,使得研究者能够系统地评估大型语言模型在生成数学问题时的准确性与可靠性。其多阶段验证框架尤其适用于需要高精度数学问题生成的场景,如自动化教育工具的开发。
解决学术问题
ValiMath数据集解决了数学问题生成中常见的隐蔽缺陷问题,如逻辑矛盾、前提缺失等。通过五阶段验证流程,该数据集显著提升了问题过滤的精确度与召回率,为学术界提供了可量化的评估标准。这一突破不仅填补了数学问题可靠性验证的空白,还为后续研究奠定了坚实的实验基础。
衍生相关工作
基于ValiMath数据集,研究者们已开展多项关于数学问题自动验证的延伸工作。其中最具代表性的是结合轻量级模型投票机制的验证系统,该系统在保持高效率的同时实现了90%的精确度。此外,该数据集还催生了多个针对特定错误类型的深度检测模型,推动了数学问题生成领域的精细化发展。
以上内容由遇见数据集搜集并总结生成



