ValiMath

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/scuuy666/ValiMath

下载链接

链接失效反馈

官方服务：

资源简介：

ValiMath数据集是一个包含2147个经过精心挑选的数学问题的测试集，用于评估大型语言模型在逻辑和结构标准基础上的数学问题验证能力。每个问题样本都有详细的字段，包括问题编号、内容、格式有效性、基本逻辑健全性、必要条件有效性、逻辑矛盾性、条件完整性、真实标签、主分类、次分类和难度评级。数据集适用于零样本分类、错误类型定位、LLM微调评估和教程学习。

创建时间：

2025-05-21

原始信息汇总

ValiMath Dataset 概述

基本信息

许可证: Apache-2.0
任务类别: 零样本分类、文本分类
语言: 英语
标签: LLM、数学、问题验证
数据集名称: ValiMath Dataset
规模: 1K<n<10K
下载大小: 585,621 字节
数据集大小: 1,285,601 字节
训练集样本数: 2,147

数据集结构

特征:
- question_no: 问题唯一标识符 (int32)
- question: 数学问题文本 (string)
- question_format: 问题格式是否有效 (bool)
- level_0_check: 是否通过基本逻辑检查 (bool)
- min_Pi_check: 最小必要条件是否有效 (bool)
- contradiction_check: 是否存在逻辑矛盾 (bool)
- condition_complete_check: 是否包含所有必要条件 (bool, 可为null)
- gt: 问题最终是否正确 (bool)
- primary_category: 主要数学主题 (string)
- secondary_category: 具体数学领域 (string)
- difficulty_rating: 难度评级 (string, 0.0-10.0)

用途与目的

测试LLM在验证数学问题正确性方面的能力
每个问题标注了五种不同的验证检查
适用于训练和评估二元分类或多步逻辑推理系统

应用场景

零样本分类问题正确性
错误类型定位和检测
数学感知LLM的微调或评估
带有难度注释的课程学习

统计数据

总样本数: 2,147
语言: 英语
标签比例: 有效和无效问题的平衡混合
领域: 代数、组合数学、概率、几何等

使用方法

python from datasets import load_dataset dataset = load_dataset("scuuy666/ValiMath")

引用

bibtex @misc{shen2025letsverifymathquestions, title={Lets Verify Math Questions Step by Step}, author={Chengyu Shen and Zhen Hao Wong and Runming He and Hao Liang and Meiyi Qiang and Zimo Meng and Zhengyang Zhao and Bohan Zeng and Zhengzhou Zhu and Bin Cui and Wentao Zhang}, year={2025}, eprint={2505.13903}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.13903}, }

致谢

创建该数据集旨在推动基于LLM的数学推理和问题验证的边界

搜集汇总

数据集介绍

构建方式

在数学问题验证研究领域，ValiMath数据集通过系统化流程构建了2147个英文数学题目。构建过程基于论文《Let's Verify Math Questions Step by Step》提出的多维度验证框架，每个题目均经过五类逻辑校验标注：语法结构有效性、基础逻辑合理性、最小必要条件完整性、条件矛盾性以及解题条件完备性。标注团队采用分层抽样策略覆盖代数、概率、几何等数学分支，并引入难度评级机制确保数据多样性。

使用方法

研究者可通过Hugging Face平台直接加载数据集进行数学验证任务评估，支持零样本分类和错误定位分析。使用时应依据五类验证标签构建多任务学习框架，或利用难度评级开展课程学习。数据加载代码仅需调用load_dataset('scuuy666/ValiMath')接口，其标准化的JSON格式便于集成至现有推理系统，特别适合用于训练数学领域的问题验证模型。

背景与挑战

背景概述

随着大型语言模型在数学推理领域的广泛应用，评估模型对数学问题正确性的验证能力成为关键研究方向。ValiMath数据集由Chengyu Shen等研究人员于2025年创建，旨在通过2,147个精心标注的数学问题，系统评估模型基于多维度逻辑标准进行问题验证的能力。该数据集覆盖代数、组合数学、概率统计等多个数学分支，通过五类结构化验证标签构建了细粒度的评估框架，为数学教育智能化和自动解题系统的可靠性研究提供了重要基准。

当前挑战

数学问题验证任务需解决自然语言表述的模糊性与数学逻辑严谨性之间的根本矛盾，具体体现在模型需同步处理语法合规性、条件完备性、逻辑一致性等多维度约束。数据集构建过程中面临双重挑战：一方面需建立覆盖不同错误类型的标注体系，避免验证标准的主观偏差；另一方面要求标注者具备扎实的数学功底与逻辑推理能力，确保对矛盾条件、最小必要条件等抽象概念的精准判定。这些挑战使得该数据集成为推动可解释性数学推理研究的关键载体。

常用场景

经典使用场景

在数学教育技术领域，ValiMath数据集被广泛应用于评估大型语言模型在数学问题验证任务中的表现。该数据集通过提供2147个精心标注的数学问题，支持模型对问题格式、逻辑一致性及条件完整性进行多维度检验。典型应用场景包括零样本分类任务，模型需直接判断问题的正确性，而无需额外训练数据，这有效模拟了真实教育环境中对题目质量的快速筛查需求。

解决学术问题

ValiMath数据集主要针对数学问题自动验证中的关键挑战，如逻辑矛盾检测与条件完备性分析，为自然语言处理与形式化推理的交叉研究提供了基准。通过标注五种常见错误类型，该数据集推动了可解释性数学推理模型的发展，解决了传统方法依赖单一答案生成而忽视问题内在逻辑完整性的局限，对构建可靠的教育评估系统具有理论意义。

实际应用

在实际应用中，ValiMath可作为智能辅导系统的核心组件，辅助教师或在线教育平台自动识别题目中的逻辑缺陷。例如，在题库构建过程中，模型能快速过滤存在条件矛盾或语法错误的问题，提升学习资源的可靠性。其难度分级机制还可支持自适应学习路径设计，为不同水平学习者匹配适宜的练习内容。

数据集最近研究