GeoBuildBench

Name: GeoBuildBench
Creator: 北京大学; 王选计算机研究所
Published: 2026-05-13 16:30:12
License: 暂无描述

arXiv2026-05-13 更新2026-05-15 收录

下载链接：

https://github.com/ooongs/GeoBuildBench

下载链接

链接失效反馈

官方服务：

资源简介：

GeoBuildBench是由北京大学和王选计算机研究所联合构建的几何构造基准数据集，旨在评估大语言模型和多模态智能体将自然语言几何问题转化为可执行几何构造的能力。该数据集包含489道源自GeoQA及在线教科书资源的中文平面几何题目，每条数据均标注了必需几何对象和可验证的几何约束条件，通过自动化过滤和人工验证确保文本完备性与构造可行性。数据集采用三阶段构建流程：首先基于GPT-4.1进行文本可构造性筛选与清洗，随后提取结构化任务表示，最后通过数学专业人员进行几何可实现性验证。该数据集主要应用于几何推理、多模态交互系统及可执行程序生成研究领域，致力于解决自然语言到几何结构的精准转换与约束满足问题。

GeoBuildBench is a geometric construction benchmark dataset jointly constructed by Peking University and the Wangxuan Institute of Computer Technology, aiming to evaluate the ability of Large Language Models (LLMs) and multimodal AI Agents to convert natural language geometric problems into executable geometric constructions. This dataset contains 489 Chinese planar geometry problems sourced from GeoQA and online textbook resources. Each entry is annotated with required geometric objects and verifiable geometric constraints, and its textual completeness and construction feasibility are ensured through automated filtering and manual verification. The dataset follows a three-stage construction pipeline: first, screening and cleaning for textual constructability based on GPT-4.1; second, extracting structured task representations; and finally, verifying geometric realizability with professional mathematicians. This dataset is primarily applied in research areas including geometric reasoning, multimodal interaction systems, and executable program generation, and it is dedicated to solving the precise conversion from natural language to geometric structures and constraint satisfaction problems.

提供机构：

北京大学; 王选计算机研究所

创建时间：

2026-05-13

原始信息汇总

GeoBuildBench 数据集概述

基本信息

数据集名称: GeoBuildBench - Geometry Construction from Text
数据集地址: https://github.com/ooongs/GeoBuildBench
许可证: MIT License

数据集描述

GeoBuildBench是一个用于从文本描述生成几何构造的数据集及评估基准系统。该数据集结合了多模态大语言模型（LLM）和领域特定语言（DSL），旨在评估和提升LLM在几何问题求解任务上的表现。

主要功能

几何问题解析: 从文本中提取几何对象和验证条件
DSL构造: 使用领域特定语言进行几何构造，支持算术和三角表达式（如 100*cos(45°)、50+30*sin(60°)）
多模态LLM代理: 基于视觉语言模型的ReAct代理
基准测试系统: 评估LLM在几何任务上的性能
可视化: 基于matplotlib的交互式查看器

项目结构

pyggb/ ├── src/ # 核心源代码 │ ├── core/ # 几何基元和命令 │ ├── dsl/ # DSL执行器和验证器 │ ├── agent/ # ReAct代理实现 │ ├── benchmark/ # 基准数据集处理 │ ├── interfaces/ # LLM接口 │ ├── parser/ # 问题解析 │ ├── ggb/ # GeoGebra集成 │ └── utils.py # 路径工具 ├── scripts/ # 实用脚本 ├── prompts/ # 代理提示词 ├── data/ # 基准数据集 ├── run_agent_benchmark.py # 主执行脚本 ├── preview.py # 可视化工具 └── *.sh # Shell脚本

核心模块

几何类型 (`src/core/geo_types.py`)

Point（点）、Line（线）、Segment（线段）
Circle（圆）、Arc（弧）
Polygon（多边形）、Triangle（三角形）

命令 (`src/core/commands.py`)

line_pp: 经过两点的线
intersect_ll: 线-线交点
circle_cr: 以中心和半径作圆
其他更多构造命令

DSL执行器 (`src/dsl/dsl_executor.py`)

执行DSL代码并渲染构造，支持数学表达式，例如：

point : 0 0 -> O point : 100cos(0°) 100sin(0°) -> A polygon : A B C -> triangle

ReAct代理 (`src/agent/react_agent.py`)

多模态代理用于解决几何问题，支持视觉语言模型（如 GPT-4o）。

基准测试

单问题运行: python run_agent_benchmark.py --problem-id 0 --model gpt-4o --verbose
批量模式: python run_agent_benchmark.py --batch --model gpt-4o --limit 10
Shell脚本: 提供多模型对比、视觉模型基准测试、并行数据集创建等脚本

可视化工具

使用 python preview.py 启动交互式查看器，支持键盘导航和构造重新生成。

搜集汇总

数据集介绍

构建方式

GeoBuildBench数据集源自GeoQA及在线教科书资源，经过严格的三阶段筛选与标注流程构建而成。首先，借助GPT-4.1基于文本的建构可行性过滤，剔除依赖图示信息或存在歧义的问题，并清理非核心内容。其次，利用大语言模型提取结构化的任务表示，包括所需的几何对象和可验证的约束条件。最后，由具备数学背景的标注者进行人工验证，确保提取信息的准确性与几何可实现性，最终收录489道中文平面几何问题。

特点

该数据集的核心特色在于将几何问题转化为可交互的建构任务，而非传统的答案预测或静态图解。它定义了一组简洁的领域特定语言（DSL）作为代理的行动空间，并依赖显式的对象覆盖和几何约束满足作为评估标准，允许多种有效建构路径。数据集尤其强调对结构性幻觉的检测，如未定义对象引用或几何不可行操作，从而深入评估模型在保持连贯几何状态和利用反馈进行迭代修复方面的能力。

使用方法

使用GeoBuildBench时，研究者需将代理置于一个闭环交互环境中。代理接收自然语言问题描述，生成DSL程序，环境执行程序并返回渲染的图形以及关于执行错误、缺失对象和违反约束的结构化反馈。代理据此迭代修改程序，直至所有必需对象和约束条件均被满足或达到预设交互预算。该基准支持零样本或少样本评估，通过成功率、迭代步数、幻觉频率和对象缺失等指标全面衡量模型的几何建构与自我修正能力。

背景与挑战

背景概述

GeoBuildBench 是由北京大学及王选计算机研究所的研究人员于近期推出的一项创新性基准测试，旨在评估大语言模型与多模态智能体将非形式化的自然语言平面几何问题转化为可执行几何构造的能力。与以往聚焦于答案正确性或静态图形解读的几何基准不同，GeoBuildBench 将几何图形视为一项交互式构造任务：智能体需根据文本问题生成领域特定语言程序，以产生满足明确指定几何对象与可验证约束的图形。该基准包含 489 个中文教材风格问题，经自动筛选与人工验证以确保文本完备且可构造。GeoBuildBench 的提出，为检验模型在超越文本或视觉合理性之外的、可落地的结构化推理能力，提供了严格而新颖的测试平台，在几何推理与人工智能交叉领域具有重要影响力。

当前挑战

GeoBuildBench 所面对的挑战涵盖两大层面。在领域问题上，其核心难题在于如何让模型将非形式化的自然语言描述转化为一致且可执行的几何构造，这要求模型具备超越传统问答或静态图形解读的深层次语义理解与空间推理能力，以克服频繁出现的结构幻觉、对象遗漏及几何约束违反。在数据集构建过程中，挑战同样严峻：许多原始问题依赖图形信息、包含模糊指代或内蕴不一致约束，需通过基于大语言模型的过滤清洗、结构化任务表示抽取以及严格的人工验证，确保每个实例从文本出发即可构造且约束集几何可实现。最终，几何构造问题因其严格的空间约束与即时可视的失败反馈，成为检验智能体结构化推理与迭代自修正能力的理想试炼场。

常用场景

经典使用场景

GeoBuildBench最经典的使用场景是作为大语言模型与多模态智能体在几何构造任务中的评估基准。该基准要求智能体将非形式化的自然语言平面几何问题转化为可执行的领域特定语言程序，从而生成满足特定几何对象和可验证约束条件的图形。与仅关注答案正确性或静态图示理解的几何基准不同，GeoBuildBench将几何图解视为一个交互式构造任务，迫使模型在迭代回路中通过执行、渲染和约束反馈来修正构造错误，最终达成一个语义完备且几何一致的构造方案。

衍生相关工作

GeoBuildBench的诞生直接推动了交互式几何构造与神经符号系统交叉领域的相关工作。受其启发，后续研究工作可能聚焦于开发能够更有效利用视觉和约束反馈进行自我修正的几何构造智能体，例如通过强化学习优化构造策略或设计更细粒度的结构化反馈机制。此外，GeoBuildBench所定义的领域特定语言与验证协议，为构建更低幻觉率、更高几何语义保真度的文本到图形生成模型提供了标准化的评估框架，进而催生出一系列旨在提升模型结构推理能力的基准扩展与训练范式创新。

数据集最近研究