GDP-29K
收藏arXiv2026-04-13 更新2026-04-15 收录
下载链接:
https://github.com/GeoParsing
下载链接
链接失效反馈官方服务:
资源简介:
GDP-29K是由中国科学院与阿里巴巴联合构建的大规模几何图表解析数据集,包含20K平面几何(PGDP-20K)和9K立体几何(SGDP-9K)样本,涵盖印刷与手绘两种风格。数据集通过多源真实教育资料收集,经三阶段质量过滤和人工标注,提供几何元素(点/线/面)及语义关系的结构化描述。其统一形式化语言首次实现平面与立体几何的兼容表达,为多模态大模型的几何感知与推理提供关键认知支架,显著提升下游几何问题求解任务的性能。
GDP-29K is a large-scale geometric chart parsing dataset jointly constructed by the Chinese Academy of Sciences and Alibaba. It consists of 20K planar geometry (PGDP-20K) and 9K solid geometry (SGDP-9K) samples, covering two styles: printed and hand-drawn. The dataset is collected from multi-source real educational materials, undergoes three-stage quality filtering and manual annotation, and provides structured descriptions of geometric elements (points/lines/planes) and their semantic relationships. Its unified formal language, for the first time, enables compatible expression of both planar and solid geometry, providing key cognitive scaffolding for geometric perception and reasoning of multimodal large language models, and significantly improving the performance of downstream geometric problem-solving tasks.
提供机构:
中国科学院自动化研究所; 中国科学院大学·人工智能学院; 阿里巴巴未来生活实验室
创建时间:
2026-04-13
搜集汇总
数据集介绍

构建方式
在几何推理领域,多模态大语言模型面临细粒度视觉元素感知的瓶颈,GDP-29K数据集的构建旨在突破这一限制。该数据集通过整合来自现实世界教科书、考试试卷及教育网站等多样化来源的几何图像,构建了一个包含20,000个平面几何样本和9,000个立体几何样本的大规模集合。构建过程遵循严格的流水线,包括数据收集、多阶段过滤(基于图像清晰度、语义质量的人工智能辅助筛选及人工验证)以及高质量标注。对于平面几何,采用模型辅助与专家修正相结合的标注策略;对于立体几何,则完全依赖人工标注以确保三维空间结构的严谨性。最终通过冗余过滤确保每个样本在形式化描述上的结构独特性,形成了总计28,977个高质量样本的数据集。
特点
GDP-29K数据集的核心特点在于其统一的几何形式化语言与全面的几何结构覆盖。该语言将已有的平面几何形式化表示扩展至立体几何,系统性地涵盖了从基本点、线到高阶平面、立体结构的所有几何元素,并定义了丰富的语义关系(如平行、垂直、长度与角度度量)。数据集在视觉风格上极具多样性,不仅包含印刷体图表,还纳入了大量手绘草图,显著增强了数据的真实性与鲁棒性。尤为重要的是,它首次为立体几何解析提供了大规模的形式化定义与基准,填补了该领域长期存在的数据空白,为模型理解复杂的三维空间关系提供了关键资源。
使用方法
GDP-29K数据集主要用于训练和评估几何图表解析模型,旨在将视觉几何图表转换为精确的形式化符号描述。典型的使用流程涉及两个阶段:首先,利用数据集进行监督微调,使模型掌握形式化语言的语法并将视觉特征映射到几何基元;随后,通过基于可验证奖励的强化学习进一步优化模型,确保生成描述在句法正确性和几何一致性上的严格性。解析得到的结构化形式描述可作为下游几何推理任务的关键认知支架,通过为多模态大语言模型提供精确的符号化输入,显著提升其在几何问题解答等复杂任务上的性能。数据集已划分为训练集与测试基准,支持对模型解析精度进行细粒度的评估。
背景与挑战
背景概述
几何推理作为数学与人工智能交叉领域的核心挑战,长期以来因视觉感知与符号推理的深度融合而备受关注。GDP-29K数据集由中国科学院自动化研究所与阿里巴巴未来生活实验室的研究团队于2026年共同构建,旨在突破多模态大语言模型在几何图解析领域的感知瓶颈。该数据集创新性地提出了一种统一的形式化语言,将平面几何与立体几何的表示框架融为一体,涵盖了从基础点线面到复杂空间结构的全面描述。通过整合来自真实教材、试题及手绘草图的29,000余个样本,GDP-29K不仅显著扩展了几何解析数据的规模与多样性,更首次为立体几何的符号化解析提供了系统性的基准资源,对推动几何感知与推理技术的协同发展具有里程碑意义。
当前挑战
GDP-29K数据集致力于解决几何图解析这一核心领域问题,其首要挑战在于如何实现二维与三维几何结构的统一符号表示,并确保解析结果兼具句法正确性与几何一致性。在构建过程中,研究团队面临多重困难:立体几何样本的标注需完全依赖人工完成,因为现有模型对空间关系的感知能力严重不足;数据质量的保障需要通过多级过滤与验证流程,以消除模糊图像与语义歧义;同时,数据集的多样性要求整合印刷体与手绘风格,并涵盖棱柱、棱锥、旋转体等多种三维形态,这对标注规范的设计与一致性维护提出了极高要求。这些挑战共同指向几何感知任务中细粒度视觉元素识别与结构化符号生成之间的深刻鸿沟。
常用场景
经典使用场景
在几何推理与多模态大语言模型的研究领域,GDP-29K数据集被广泛用于几何图解解析任务。该任务旨在将平面与立体几何图像转化为统一的符号化形式语言描述,从而将视觉感知与逻辑推理解耦。研究者通常利用该数据集训练或评估模型对几何图元(如点、线、面、体)及其语义关系(如垂直、平行、角度度量)的精确识别能力,为后续的几何自动解题与定理证明提供结构化输入。
解决学术问题
GDP-29K主要解决了多模态几何理解中细粒度视觉感知不足的核心瓶颈。传统方法在立体几何的符号化表示方面存在空白,而现有平面几何数据集在规模与多样性上亦有局限。该数据集通过提出兼容平面与立体几何的统一形式语言,并构建大规模真实场景样本,为几何图解解析任务提供了首个涵盖二维与三维的基准测试平台。其意义在于推动了多模态模型在几何结构化感知方面的进展,并为几何推理的可靠性评估奠定了数据基础。
衍生相关工作
GDP-29K的发布促进了多个相关研究方向的发展。一方面,其统一形式语言启发了后续研究对几何多模态预训练框架的设计,如将形式化描述作为中间表示来增强模型的几何推理能力。另一方面,基于该数据集训练的解析模型被广泛应用于下游几何问答任务,如在Geometry3K、PGPS9K等基准上作为认知支架显著提升了解题准确率。此外,数据集的构建方法也为其他需要结构化视觉理解的领域(如图表分析、工程制图解析)提供了可借鉴的范式。
以上内容由遇见数据集搜集并总结生成



