CapGeo-Bench

Name: CapGeo-Bench
Creator: 清华大学,北京大学,蚂蚁集团
Published: 2025-10-10 19:47:54
License: 暂无描述

arXiv2025-10-10 更新2025-11-19 收录

下载链接：

https://anonymous.4open.science/r/CapGeo-2042/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

CapGeo-Bench 是一个包含 4641 对高质量几何图形和对应双语（中文和英文）描述的数据集，涵盖了平面几何、解析几何和立体几何三个类别以及四个难度级别。该数据集旨在评估和衡量模型在几何图形描述方面的能力，为多模态大型语言模型（MLLMs）的几何推理提供基准。

CapGeo-Bench is a dataset consisting of 4641 high-quality pairs of geometric figures and their corresponding bilingual (Chinese and English) descriptions. It encompasses three categories, namely plane geometry, analytic geometry, and solid geometry, along with four difficulty levels. This dataset is intended to evaluate and assess models' capabilities in geometric figure description, and serve as a benchmark for geometric reasoning in multimodal large language models (MLLMs).

提供机构：

清华大学,北京大学,蚂蚁集团

创建时间：

2025-10-10

搜集汇总

数据集介绍

构建方式

在几何推理领域，多模态大语言模型面临视觉信息理解的核心挑战。CapGeo-Bench通过系统化构建流程，从中国K-12教材中精选几何问题，采用DocLayout-YOLO工具自动提取几何图示，并经过数学专家指导的严格人工筛选。最终由具备STEM背景的标注者进行双语标注，通过多轮训练与交叉审核机制，形成包含4,641对高质量几何图形-标注文本的数据集合，确保标注内容精确反映几何元素的空间关系与数值特征。

特点

该数据集涵盖平面几何、解析几何与立体几何三大类别，按难度梯度分为四个层级，呈现金字塔式分布结构。其核心特征在于采用关键点三维评估体系，将几何描述解构为元素识别、空间关系与数值关系三个维度，通过语义等效匹配算法实现细粒度质量评估。这种结构化标注范式不仅能有效衡量多模态模型的几何信息提取能力，其评估结果与下游推理任务表现呈现显著正相关，为几何描述生成研究提供了可靠的质量度量标准。

使用方法

研究者可将该数据集作为基准测试平台，通过输入几何图像至多模态模型获取生成描述，继而运用关键点三维评估框架进行自动化质量分析。评估流程包含三个递进阶段：首先分别从标准答案与模型输出中提取结构化关键点集合，继而通过语义匹配识别重叠项，最终基于召回率计算三维度得分。这种使用方法不仅能系统评估模型的几何描述能力，还可通过相关性分析筛选优质描述生成模型，为Caption辅助的几何推理框架提供模型选择依据。

背景与挑战

背景概述

CapGeo-Bench数据集由清华大学与北京大学等机构于2025年联合创建，旨在解决多模态大语言模型在几何推理中的视觉理解瓶颈。该数据集聚焦于几何图形与文本描述的精准对齐问题，通过构建4641对高质量几何图形-标注对，覆盖平面几何、解析几何与立体几何三大类别，并设置四个难度层级。其核心研究价值在于推动视觉模态与文本模态的协同推理，为几何认知计算领域提供了关键评估基准。

当前挑战

该数据集主要应对几何问题自动求解中的两大挑战：在领域问题层面，需克服多模态模型对几何图形元素识别不全、空间关系误判及数值属性提取失准等认知缺陷；在构建过程中，面临几何图形语义结构复杂性与标注一致性的双重压力，需通过专家协同标注与多轮交叉验证确保数据质量，同时设计基于关键点的三维评估指标以量化描述完整性。

常用场景

经典使用场景

在几何推理研究领域，CapGeo-Bench数据集通过提供4641个精标注的几何图形-文本对，成为评估多模态大语言模型视觉信息提取能力的核心工具。该数据集涵盖平面几何、解析几何与立体几何三大类别，并设置四个难度层级，能够系统化测试模型从复杂图表中识别点、线、面及空间关系的关键能力。研究者通常将其作为基准测试平台，通过关键点匹配算法量化模型生成的几何描述与专家标注的语义重合度，从而揭示模型在几何视觉理解中的潜在缺陷。

实际应用

在教育智能化场景中，该数据集为自动解题系统提供了可靠的训练与评估基础。通过将几何试题中的图形转化为标准化描述，辅助系统能够更准确地理解用户提交的手绘几何草图或教材插图。在工业设计领域，该技术可应用于工程图纸的自动解析，帮助识别机械构件间的几何约束关系，提升计算机辅助设计的自动化水平。其双语标注特性还支持跨语言教育资源的智能生成与适配。

衍生相关工作

基于该数据集提出的关键点评估方法，研究者开发了多种几何描述生成模型优化策略。例如G-LLaVA模型通过引入对比学习增强空间关系建模，MMGeoLM则利用正负样本对提升元素识别鲁棒性。在推理框架层面，CapGeo提出的描述辅助机制被扩展应用于数学定理证明、物理动力学分析等复杂推理任务，催生了如MathVerse、GeoQA+等衍生评测体系，形成了以描述生成驱动多模态推理的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集