GeomRel
收藏arXiv2025-01-23 更新2025-01-25 收录
下载链接:
https://github.com/banyedy/GeomRel
下载链接
链接失效反馈官方服务:
资源简介:
GeomRel数据集由上海交通大学的研究团队创建,旨在评估大语言模型对几何结构的理解能力。该数据集通过提取几何关系识别(GRI)这一核心步骤,构建了一个基准测试,包含基础版和高级版两个版本。基础版数据集通过从定义到属性的方式生成,覆盖了多种几何关系;高级版数据集则通过条件组合和增强操作生成,增加了复杂性和多样性。数据集的应用领域主要集中在几何问题的自动求解和几何关系的识别,旨在解决现有数据集无法准确衡量LLMs几何理解能力的问题。
The GeomRel dataset, created by the research team from Shanghai Jiao Tong University, is designed to evaluate the geometric structure understanding capabilities of large language models (LLMs). This dataset establishes a benchmark test through the core step of geometric relation recognition (GRI) extraction, and includes two versions: basic and advanced. The basic version is generated via the approach from definition to attribute, covering a variety of geometric relations; the advanced version, on the other hand, is generated through conditional combination and enhancement operations, which increases its complexity and diversity. The main application fields of this dataset focus on automatic solving of geometric problems and geometric relation recognition, aiming to address the issue that existing datasets cannot accurately measure the geometric understanding capabilities of LLMs.
提供机构:
上海交通大学
创建时间:
2025-01-23
原始信息汇总
GeomRel 数据集概述
数据集简介
GeomRel 是一个专门设计用于评估大型语言模型(LLMs)在几何关系识别方面理解能力的数据集。该数据集旨在解决现有数据集仅评估LLMs最终答案的局限性,通过隔离几何关系识别的核心步骤,全面衡量LLMs对几何结构的理解。
数据集特点
- 基准数据集:专门用于评估LLMs在几何关系识别方面的理解能力。
- 核心评估:聚焦于几何关系识别这一核心步骤。
- 方法论:提出了Geometry Chain-of-Thought (GeoCoT)方法,以提升LLMs在几何推理任务中的表现。
- 洞察:揭示了现有LLMs在几何理解方面的局限性,并提出了改进方向。
当前状态
目前,该仓库仅包含 GeomRel 数据集。其他内容,包括文档、代码和示例,将在未来上传。
引用
如果您在研究中使用了GeomRel数据集,请按以下方式引用:
bibtex @misc{wang2025largelanguagemodelstruly, title={Do Large Language Models Truly Understand Geometric Structures?}, author={Xiaofeng Wang and Yiming Wang and Wenhong Zhu and Rui Wang}, year={2025}, eprint={2501.13773}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.13773}, }
搜集汇总
数据集介绍

构建方式
GeomRel数据集的构建基于几何关系识别(GRI)的核心步骤,旨在评估大语言模型(LLMs)对几何结构的理解能力。首先,研究者从平面几何的基本元素(点、线、角、形状)出发,抽象出几何关系池,涵盖线-点、线-线、角-角、形状-点等关系。接着,通过从定义到属性的方法生成基础数据,涵盖几何关系的多种情况。在此基础上,通过条件池的合并、条件链的拼接等规则操作,生成更复杂的几何结构,形成高级数据集。最后,通过添加不确定关系和多样性操作(如点重命名、无关信息引入)进一步丰富数据集,确保其能够全面评估模型在几何关系识别中的表现。
特点
GeomRel数据集的特点在于其专注于几何关系的识别,而非传统的几何问题求解。数据集分为基础版和高级版,基础版涵盖简单的几何关系,而高级版则通过条件拼接和多样性操作生成更复杂的几何结构。数据集包含线基、角基和形状基三大类几何关系,每类关系下又细分为多个具体关系。此外,数据集还引入了不确定关系,要求模型在信息不足时做出“无法推断”的判断,从而更真实地评估模型对几何结构的理解能力。数据集的多样性操作(如点重命名和无关信息引入)进一步增强了其复杂性和评估的全面性。
使用方法
GeomRel数据集的使用方法主要包括几何关系的识别和推理。首先,模型需要根据给定的几何结构描述,识别出其中的几何关系。数据集通过多选问题的形式呈现,要求模型从给定的选项中选择正确的几何关系或判断关系是否可推断。为了提升模型的几何推理能力,研究者提出了几何思维链(GeoCoT)方法,该方法分为两个阶段:第一阶段将几何结构分解为基本元素,提取相关信息;第二阶段通过逆向推理,逐步推导出几何关系。GeoCoT方法显著提升了模型在几何关系识别中的表现,尤其是在复杂几何结构下的推理能力。
背景与挑战
背景概述
GeomRel数据集由上海交通大学的研究团队于2025年创建,旨在评估大型语言模型(LLMs)对几何结构的理解能力。该数据集的核心研究问题是通过几何关系识别(Geometric Relationship Identification, GRI)来评估模型是否真正理解几何结构,而不仅仅是依赖巧合得出正确答案。现有的几何数据集主要关注最终答案的准确性,无法真正衡量模型对几何结构的理解。GeomRel通过解构几何问题中的核心步骤,专注于几何关系的识别,填补了这一空白。该数据集对几何能力的研究具有重要意义,尤其是在空间推理和抽象思维方面,为LLMs的几何能力评估提供了新的基准。
当前挑战
GeomRel数据集面临的挑战主要体现在两个方面。首先,在解决领域问题上,现有的几何数据集无法准确评估模型对几何结构的理解,模型可能通过巧合得出正确答案,而实际上并未真正理解几何关系。GeomRel通过专注于几何关系识别,解决了这一问题,但如何确保模型在复杂几何结构中的表现仍然是一个挑战。其次,在数据集构建过程中,如何生成多样化的几何描述、避免歧义以及确保数据集的广泛覆盖性也是构建过程中遇到的主要挑战。此外,模型在处理角度关系时表现较差,尤其是在复杂几何结构中,如何提升模型对角度关系的识别能力是未来研究的重要方向。
常用场景
经典使用场景
GeomRel数据集主要用于评估大型语言模型(LLMs)在几何结构理解方面的能力,特别是几何关系识别(Geometric Relationship Identification, GRI)。通过将几何问题分解为几何关系识别的核心步骤,GeomRel能够有效评估模型是否真正理解几何结构,而不仅仅是依赖于最终答案的准确性。该数据集广泛应用于几何推理、空间理解以及抽象思维能力的测试,尤其是在复杂几何结构的识别和推理任务中。
解决学术问题
GeomRel数据集解决了现有几何数据集仅评估模型最终答案准确性的局限性。传统数据集无法区分模型是否真正理解几何结构,还是通过巧合得出正确答案。GeomRel通过专注于几何关系识别,填补了这一空白,使得研究者能够更准确地评估模型在几何推理中的表现。该数据集还揭示了LLMs在复杂几何结构理解上的不足,尤其是在角度关系识别方面的显著缺陷,为未来的模型改进提供了方向。
衍生相关工作
GeomRel数据集衍生了一系列相关研究工作,尤其是在几何推理和大型语言模型能力评估领域。基于GeomRel,研究者提出了几何思维链(Geometry Chain-of-Thought, GeoCoT)方法,显著提升了模型在几何关系识别中的表现。此外,GeomRel还推动了其他几何数据集的构建和改进,如GeoQA、Geometry3K等,进一步丰富了几何推理领域的研究资源。这些工作不仅提升了模型在几何任务中的表现,还为几何推理的理论研究提供了新的视角。
以上内容由遇见数据集搜集并总结生成



