GeoSym127K

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/Tomie0506/GeoSym127K

下载链接

链接失效反馈

官方服务：

资源简介：

GeoSym127K是一个大规模、经过求解器验证的数据生态系统，旨在解决大型多模态模型（LMMs）在几何推理中的视觉幻觉和逻辑碎片化问题。它由GeoSym Engine生成，严格将视觉拓扑和逻辑步骤锚定到精确数学坐标。数据集包含指令微调集（按难度分层）、视觉对齐集（51K高分辨率图像和127K问答对）、评估套件（GeoSym-Bench，511个高难度样本）和图像数据。特点包括符号可验证性、思维链答案验证、复杂拓扑支持及适用于强化学习的可验证奖励。数据以.jsonl和.parquet格式提供。

GeoSym127K is a large-scale, solver-verified data ecosystem designed to address visual hallucination and logical fragmentation in geometric reasoning for large multimodal models (LMMs). Unlike existing synthetic datasets relying on unreliable LLM heuristics, GeoSym127K is generated by the GeoSym Engine, a neuro-symbolic framework that strictly anchors each visual topology and intermediate logical step to precise mathematical coordinates. The dataset includes: 1) an instruction-tuning set stratified by difficulty (beginner, hard, expert); 2) a visual alignment set with 51K high-resolution images and 127K QA pairs featuring dense structural descriptions; 3) an evaluation suite (GeoSym-Bench) with 511 high-difficulty samples curated by human experts; and 4) image data stored in .parquet files. Key features include symbolic verifiability, chain-of-thought answer verification, complex topology support, and suitability for verifiable reward reinforcement learning (RLVR). The dataset is provided in .jsonl and .parquet formats and can be loaded via Hugging Faces `datasets` library.

创建时间：

2026-05-07

原始信息汇总

📐 GeoSym127K 数据集概述

GeoSym127K 是一个大规模、经过求解器验证的多模态几何推理数据集，旨在解决大型多模态模型（LMM）在几何推理中存在的视觉幻觉和逻辑碎片化问题。该数据集由 GeoSym Engine 生成，这是一种神经符号框架，将每个视觉拓扑和中间逻辑步骤与精确的数学坐标严格对齐。指令微调集中的每一条思维链（CoT）原理都经过了确定性分析符号求解器 SymGT Solver（Simplify(A_pred - A_GT) == 0）的严格验证。

📂 数据集结构

数据集以 .jsonl 和 .parquet 两种格式提供，便于高效加载。数据根据认知深度和任务类型进行了严格分层：

指令微调集（按难度分层）：
- geosym_all_v3_diff_entry（入门级）：基础几何推理，1-2 步。
- geosym_all_v3_diff_hard（困难级）：嵌套拓扑，多跳推理。
- geosym_all_v3_diff_expert（专家级）：极深的推理深度，重点聚焦于复杂阴影区域分析。
视觉对齐集：
- geosym_all_v4_caption：51K 张高分辨率图像和 127K 个问答对，配有密集的结构化标题以增强视觉-符号基础。
评估套件：
- geosym_benchmark（GeoSym-Bench）：一套高难度的评估套件，包含 511 个由人类专家精心挑选的样本，侧重于推理深度和拓扑复杂度。
图像数据：
- 图像数据可在 GeoSym127K_datas.zip 中找到，并存储在带有 _images 后缀的 .parquet 文件中，格式为 PIL。

✨ 关键特性

符号可验证性： 绝对真实标签（SymGT）以精确的符号形式（例如，$frac{27}{4}sqrt{3}$）而非数值近似值导出。
答案验证的思维链： 高质量的问答对，包含严格匹配符号真实标签的多步推理轨迹。
复杂拓扑： 支持动态外接圆、内接多边形以及通过广义符号鞋带算法计算任意阴影区域。
RLVR 就绪： 由于具有确定性的精确匹配信号，非常适合使用可验证奖励（例如 GRPO）进行强化学习。

🚀 使用方法

可以使用 Hugging Face 的 datasets 库轻松加载数据集。建议使用 .parquet 文件以获得更快的加载速度。

python from datasets import load_dataset

加载整个基准集

benchmark = load_dataset("Tomie56/GeoSym127K", data_files="geosym_benchmark.parquet")

为监督式微调加载特定的困难级别划分

hard_train = load_dataset("Tomie56/GeoSym127K", data_files="geosym_all_v3_diff_hard.parquet")

print(benchmark["train"][0])

搜集汇总

数据集介绍

构建方式

GeoSym127K由GeoSym引擎基于神经符号框架自动生成，彻底摒弃了依赖大语言模型启发式策略的传统合成范式。该引擎将每帧视觉拓扑结构与中间逻辑步骤严格锚定于精确数学坐标，并通过确定性符号求解器SymGT对指令微调集中的每一条思维链进行验证，确保预测结果与符号真值完全一致。数据集涵盖入门、困难、专家三个认知深度层级，包含约12.7万问答对及5.1万张高分辨率图像，并按难度和任务类型进行精细分层。

使用方法

用户可通过HuggingFace的datasets库便捷加载数据，推荐使用parquet格式文件以获得更快的读取速度。具体而言，调用load_dataset函数时指定数据集名称及目标数据文件，如加载基准测试集时传入'geosym_benchmark.parquet'，加载困难级训练集时传入'geosym_all_v3_diff_hard.parquet'。图像数据以PIL格式嵌入在带_images后缀的parquet文件中，同时提供独立的jsonl格式用于轻量级访问。

背景与挑战

背景概述

GeoSym127K是由研究者Tomie等人于近年创建的大规模几何推理数据集，旨在解决大型多模态模型（LMMs）在几何推理中普遍存在的视觉幻觉与逻辑碎片化问题。该数据集依托神经符号框架GeoSym Engine生成，通过确定性解析求解器SymGT对每条思维链（CoT）进行严格验证，确保中间推理步骤与精确数学坐标的绝对一致。其构建标志着几何推理数据从依赖LLM启发式方法向可验证符号合成范式的转变，为多模态几何推理领域提供了规模达127K问答对的高质量基准，显著推动了模型在复杂拓扑结构（如动态外接圆、内接多边形及任意阴影区域）上的推理能力评估与发展。

当前挑战

GeoSym127K所应对的核心挑战在于多模态几何推理中视觉信息与逻辑推理的割裂现象，即LMMs常因缺乏精确的几何符号约束而产生视觉幻觉，且推理步骤易出现逻辑断裂。具体挑战包括：1）领域问题：现有合成数据集依赖不可靠的LLM启发式标注，导致推理轨迹难以确保数学正确性，无法为模型提供可验证的符号级监督信号；2）构建挑战：生成过程中需在保持多样性的同时严格锚定每个视觉拓扑到精确坐标，并设计统一框架确保证明路径与符号真值（如精确代数式）的等价性，这对数据规模（127K）及质量（分层难度）提出了极高的工程与算法要求。

常用场景

经典使用场景

在几何多模态推理领域，GeoSym127K作为一个规模宏大、经求解器严格验证的数据集，其经典使用场景集中于对大型多模态模型进行指令微调与评测。研究者将其按认知深度划分为入门、困难与专家三个层级，用以系统性地提升模型处理从简单到高度复杂几何问题的能力。通过符号化可验证的思维链数据，该数据集能够有效矫正模型在视觉拓扑理解上的幻觉现象，为构建稳健的几何推理智能体提供了坚实的训练基础。

解决学术问题

该数据集直面当前大型多模态模型在几何推理中普遍存在的视觉幻觉与逻辑碎片化两大痛点。传统方法依赖大语言模型的启发式合成，往往导致推理链条不可靠。GeoSym127K通过神经符号引擎确保了每一个中间逻辑步骤与图形拓扑的精确对应，破解了几何推理中符号表达与视觉理解难以对齐的学术难题，推动了可验证推理范式在多模态领域的发展，为建立可信赖的机器几何推理能力树立了新标杆。

实际应用

在实际应用层面，GeoSym127K赋能教育科技与自动化图形分析等领域。基于其符号化严格验证的数据，可开发出能够逐步解释几何题解过程的智能辅导系统，帮助学生理解复杂图形推理。同时，该数据集支持的可验证奖励机制使得强化学习训练更加可靠，适用于需要高精度几何理解的场景，如工程图纸自动解析、地理信息系统中的图形计算等，展现了从学术研究到产业落地的广阔前景。

数据集最近研究