MATHSTICKS
收藏arXiv2025-10-01 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/yuheng2000/MathSticks
下载链接
链接失效反馈官方服务:
资源简介:
MATHSTICKS 是一个视觉符号组合推理(VSCR)的基准数据集,它统一了视觉感知、符号操作和算术一致性。每个任务都展示了一个错误的火柴棒方程,需要通过移动一个或两个火柴棒来纠正,同时遵守严格的守恒规则。该基准包括文本引导和纯视觉设置,系统性地涵盖了数字规模、移动复杂性、解决方案多样性和运算符变化,共有 1.4M 个生成的实例和一个精心策划的测试集。
MATHSTICKS is a benchmark dataset for Visual Symbolic Combination Reasoning (VSCR) that unifies visual perception, symbolic manipulation, and arithmetic consistency. Each task presents an incorrect matchstick equation that requires correction by moving one or two matchsticks while adhering to strict conservation rules. This benchmark includes both text-guided and pure visual settings, systematically covering numerical scales, movement complexity, solution diversity, and operator variations, with a total of 1.4M generated instances and a carefully curated test set.
提供机构:
中国科学院自动化研究所, 中国科学院大学人工智能学院, 北京人工智能研究院, 北京大学, 悉尼大学, 北京航空航天大学
创建时间:
2025-10-01
搜集汇总
数据集介绍

构建方式
在视觉符号组合推理研究领域,MATHSTICKS数据集通过系统化枚举与验证流程构建而成。该数据集采用两阶段生成策略:首先在符号层面穷举所有可能的七段数码管方程状态,通过严格的火柴棍守恒规则和算术正确性验证筛选可解实例;随后利用确定性视觉渲染技术将符号状态映射为标准化图像,确保每个火柴棍移动操作与视觉表现具有一一对应关系。这一构建方法覆盖了140万条经过验证的可解实例,并生成包含400个样本的平衡测试集。
特点
该数据集具备多维度诊断特性,通过数字规模、移动复杂度、解的唯一性和运算符翻转四个核心维度构建结构化评估体系。其独特之处在于同时支持文本提示与纯视觉两种输入模式,能够有效分离视觉解析与符号推理能力的评估。数据分布呈现高度结构化特征,约79%的实例属于最高难度级别,82%需要双火柴棍移动操作,56.88%的实例存在多重有效解法,这种设计显著提升了组合推理任务的挑战性。
使用方法
研究人员可通过标准化评估协议使用该数据集,输入模式分为文本提示与纯视觉两种范式。模型需要输出规范化的移动操作序列,例如Move(A0,C3)的单步移动或组合移动格式。评估时需严格遵循火柴棍守恒约束与算术验证要求,输出结果通过机器可解析的规范格式进行自动化验证。该基准测试特别适用于诊断视觉-语言模型在符号级理解、约束编辑和算术一致性验证等方面的能力缺陷。
背景与挑战
背景概述
MATHSTICKS数据集由北京人工智能研究院联合多所高校于2025年提出,旨在推动视觉符号组合推理研究。该数据集基于火柴棍算术谜题构建,要求模型通过移动一到两根火柴棍修正错误算式,同时满足视觉感知、符号操作与算术一致性的三重约束。其创新性在于首次将符号级编辑约束与视觉渲染机制相结合,填补了现有基准在可执行符号操作与纯视觉推理评估方面的空白,为多模态推理研究提供了标准化测试平台。
当前挑战
该数据集核心挑战在于解决视觉符号组合推理问题的复杂性:模型需同步处理七段数码管识别、符号级编辑规划与算术验证三大任务,尤其在多步移动和运算符翻转场景中表现显著不足。构建过程中面临符号空间枚举的组合爆炸难题,需通过两阶段生成流水线确保140万实例的数学正确性与视觉一致性,同时平衡难度层级以避免极端案例。现有视觉语言模型在纯视觉输入场景中普遍存在符号解析能力薄弱、结构化输出格式失准等系统性缺陷。
常用场景
经典使用场景
在视觉符号组合推理研究领域,MATHSTICKS数据集通过火柴棒算术谜题构建了标准化的评估框架。该数据集典型应用于测试视觉语言模型在符号识别、约束转换规划与算术验证三方面的协同能力,研究者通过分析模型在火柴棒移动任务中的表现,系统评估其视觉感知与符号推理的融合程度。
实际应用
在现实应用中,该数据集推动的视觉符号推理技术可增强教育智能系统的交互能力,例如在数学教具开发中实现动态纠错指导。其核心机制还能迁移至工业质检场景,通过符号化约束推理辅助检测装配异常,提升自动化系统的逻辑判断精度。
衍生相关工作
基于该数据集衍生的经典研究包括视觉编程框架的优化升级,例如通过强化学习策略改进多步推理流程的Reason-RFT模型。同时催生了RoboBrain等具身智能系统,将符号级推理能力拓展至机器人操作任务,构建了从抽象符号到实体动作的映射桥梁。
以上内容由遇见数据集搜集并总结生成



