DynaSolidGeo
收藏arXiv2025-10-25 更新2025-11-05 收录
下载链接:
https://github.com/ChangtiWu/DynaSolidGeo
下载链接
链接失效反馈官方服务:
资源简介:
DynaSolidGeo是一个动态基准数据集,旨在评估视觉语言模型(VLMs)在立体几何中的真实空间数学推理能力。该数据集由503个专家精心策划的种子问题组成,理论上可以动态生成无限数量的多模态文本-视觉实例。与现有的静态资源不同,DynaSolidGeo中的每个种子问题都由一个Python程序和一个相应的MATLAB程序表示。通过提供不同的随机种子,DynaSolidGeo可以生成无限数量的问答实例,每个实例都可以包括两个视觉版本:随机视图图像和360度旋转视频。种子问题来自各种权威来源,包括中国的高考、国际数学竞赛以及广泛使用的竞赛准备训练材料。它们涵盖了几乎所有高中和竞赛级别的立体几何问题,包括位置关系、角度、长度、面积和体积计算,以及计数、动态和折叠任务。此外,我们通过基于专家注释的推理链进行过程评估,以衡量逻辑有效性和因果连贯性。
DynaSolidGeo is a dynamic benchmark dataset designed to evaluate the real-world spatial mathematical reasoning capabilities of vision-language models (VLMs) in solid geometry. This dataset consists of 503 expert-curated seed questions, which can theoretically generate an unlimited number of multimodal text-visual instances dynamically. Unlike existing static resources, each seed question in DynaSolidGeo is represented by both a Python program and a corresponding MATLAB program. By providing different random seeds, DynaSolidGeo can generate an unlimited number of question-answer instances, each of which can include two visual variants: random-view images and 360-degree rotating videos. The seed questions are sourced from various authoritative sources, including China's National College Entrance Examination (Gaokao), international mathematics competitions, and widely used competition preparation training materials. They cover almost all high school and competition-level solid geometry problems, including positional relationships, angles, lengths, areas and volume calculations, as well as counting, dynamic and folding tasks. Additionally, we conduct process-based evaluation using expert-annotated reasoning chains to measure logical validity and causal coherence.
提供机构:
华东师范大学
创建时间:
2025-10-25
搜集汇总
数据集介绍

构建方式
在立体几何研究领域,DynaSolidGeo数据集通过半自动化标注流程构建,融合专家指导与算法生成的优势。该流程首先由数学专家对503道种子问题进行参数化处理,将题目中的固定值转化为变量参数,并生成对应的MATLAB可视化程序;随后利用大语言模型辅助将参数化答案转换为Python函数,通过规则脚本自动合成可随机生成文本描述与可视化指令的参数化程序;最终经过人工校验确保数据正确性与可用性,形成支持无限实例生成的动态基准。
特点
作为首个动态立体几何推理基准,DynaSolidGeo展现出三大核心特征:其动态生成机制通过随机种子实现题目参数与视角的无限组合,有效规避静态数据集的数据污染问题;覆盖八类立体几何问题范畴,包含空间关系判定、度量计算及动态折叠等高阶任务,全面考察空间智能的不同维度;创新性地引入过程评估体系,通过专家标注的推理链对逻辑一致性与因果连贯性进行量化,突破传统仅依赖答案准确率的评价局限。
使用方法
该数据集支持多模态评估范式,研究者可通过输入随机种子动态生成包含随机视角图像与360度旋转视频的测试实例。评估时需综合运用三项指标:答案准确率衡量最终结果的正确性,过程分数依据逻辑对齐度、关键依赖使用等标准评判推理质量,过程合格准确率则联合前两者评估真实推理能力。实验配置建议采用三批随机种子生成1509个文本-图像实例,并选用具备推理链输出能力的模型以获取完整评估数据。
背景与挑战
背景概述
立体几何问题求解要求融合空间智能与符号推理的空间数学推理能力。DynaSolidGeo数据集由华东师范大学、华中科技大学、北京大学等机构的研究团队于2025年创建,旨在解决现有多模态数学推理基准在立体几何领域的缺失。该数据集通过半自动标注流程构建,包含503个专家精心策划的种子问题,可动态生成无限多样的多模态实例。其核心研究问题聚焦于评估视觉语言模型在三维空间中的真实推理能力,填补了动态评估立体几何推理的空白,对推动空间智能研究具有重要意义。
当前挑战
在解决立体几何问题领域,模型需应对高阶空间智能挑战,如心理旋转和空间可视化能力,尤其在计数类问题中表现显著不足。构建过程中面临双重挑战:一是确保参数化问题的数学正确性与视觉一致性,需专家介入进行几何关系验证;二是实现动态实例生成的技术复杂性,需协调Python程序与MATLAB可视化引擎的协同工作,同时维持推理链标注的逻辑严谨性。
常用场景
经典使用场景
在立体几何推理领域,DynaSolidGeo数据集被广泛用于评估视觉语言模型在三维空间中的数学推理能力。该数据集通过动态生成机制,能够无限扩展出多样化的文本-视觉问题实例,涵盖位置关系、角度计算、体积求解等八类核心几何任务,为模型提供真实且无污染的测试环境。其独特的360度旋转视频和随机视角图像模态,有效模拟了人类在解决立体几何问题时所需的动态空间感知过程。
衍生相关工作
该数据集催生了多项创新研究,例如基于其动态生成机制开发的几何问题增强框架GeoAugment,以及受过程评估启发的推理链可解释性分析方法ChainInterpret。其半自动标注流程被改进为全自动的几何程序合成工具AutoGeoCode,同时启发了跨模态空间推理模型SpatialBERT的构建。这些衍生工作共同推进了动态基准在数学推理领域的标准化进程。
数据集最近研究
最新研究方向
在立体几何领域,DynaSolidGeo数据集推动了视觉语言模型在空间数学推理方面的前沿研究。该数据集通过动态生成机制有效应对静态基准中普遍存在的数据污染与记忆效应问题,结合过程评估与答案准确性双重指标,深入揭示模型在空间感知、旋转及可视化等高阶能力上的局限。当前研究聚焦于提升模型对三维结构的理解与逻辑推导的连贯性,尤其在计数类问题中暴露的推理短板促使学界探索更鲁棒的多模态融合方法。这一进展不仅为几何推理评估设立了新范式,也激发了关于模型泛化性与真实推理能力的热议,对人工智能在复杂空间任务中的应用具有深远影响。
相关研究论文
- 1通过华东师范大学 · 2025年
以上内容由遇见数据集搜集并总结生成



