NoReGeo

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/FusionBrainLab/NoReGeo

下载链接

链接失效反馈

官方服务：

资源简介：

NoReGeo是一个用于评估大型语言模型和视觉语言模型在不进行推理、代数或思维链的情况下对几何内在理解能力的基准数据集。它包含2500个简单几何问题，跨越25个类别，旨在测试模型是否原生编码空间关系和几何属性。该数据集采用交叉模态几何基准设计，包含简短的问题-答案对，每个问题都是一次性查询，模型需要在没有中间推理步骤的情况下立即返回答案。数据集提供两种模态的提示——仅文本问题及其对应的基于图像的版本（图像以点状和完整版本呈现）。

创建时间：

2025-11-14

原始信息汇总

NoReGeo: Non-Reasoning Geometry Benchmark 数据集概述

数据集基本信息

名称: NoReGeo (Non-Reasoning Geometry Benchmark)
许可证: Apache-2.0
任务类别: 视觉问答
语言: 英语
标签: 数学、几何、视觉、STEM

数据集简介

NoReGeo是一个用于评估LLMs内在几何理解能力的基准测试，无需推理、代数或思维链。该数据集包含2,500个简单几何问题，涵盖25个类别，旨在测试模型是否原生编码空间关系和几何属性。

核心特征

问题数量: 2,500个几何问题
问题类型: 单次查询提示-答案对
回答方式: 直接回答，无中间推理步骤
最高准确率: 约65%（在现有最先进LLMs中）

任务分类体系

任务类型

分类任务 (C-): 多项选择题，如识别多边形区域或对称性
数值任务 (N-): 需要数值答案，如坐标或长度
不稳定任务 (U-): 涉及二进制决策，可能因最小输入变化而改变

多模态格式

文本问题: 纯文本格式
点状图像: 仅显示标记点（无坐标标签），边由文本暗示
完整图像: 完整图形图像，文本仅提供问题和答案选项

答案格式规范

数据集包含3种答案模式类型：

分类答案格式

json {answer: <answer_value>}

提示词: "Provide your answer as JSON: {answer: <value>}, where <value> is from the options: [comma-separated list of options]. Return only that object."

点坐标答案格式

json {x: <x_coordinate>, y: <y_coordinate>}

提示词: "Provide your answer as JSON with keys: x and y for point coordinates. Return only that object."

数值答案格式

json {answer: <answer_value>}

提示词: "Provide your answer as JSON: {answer: <value>}, where <value> is a floating point or integer number. Return only that object."

评估结果关键发现

评估模型数量: 超过45个模型
完整图像显著提升效果: VLMs在使用完整视觉输入时表现远优于纯文本或点状图像
任务敏感性差异: 某些任务仅在图像支持下变得简单，而其他任务在不同模态间保持稳定
数学专用模型表现: 数学调优的LLMs在基本分类任务上表现较差

技术集成

评估代码库: https://github.com/FusionBrainLab/NoReGeo/tree/main
集成框架: 已集成到vLLM库中支持自动评估

搜集汇总

数据集介绍

构建方式

在几何认知评估领域，NoReGeo基准数据集通过系统化方法构建了2,500道基础几何问题，涵盖25种任务类别。该数据集采用跨模态设计，为每个问题提供纯文本、点状图像和完整图像三种呈现方式，确保对模型几何直觉的多维度测评。构建过程中严格遵循直接应答范式，通过结构化提示词约束输出格式，有效规避了推理链或代数计算对几何本质理解的干扰。

特点

该数据集的核心特征在于其精准聚焦几何本质能力的测评框架。任务体系细分为分类判断、数值计算与不稳定决策三大类型，通过点状图像与完整图像的对比设计，清晰揭示视觉信息对空间关系认知的增强效应。特别设计的JSON响应模板有效规范了模型输出，而多模态并行的实验设置则能精确分离文本编码与视觉感知在几何理解中的贡献度。

使用方法

基于vLLM框架的集成化评估流程使该数据集具备开箱即用的特性。研究人员仅需配置标准环境即可启动自动化测评，通过加载预定义的基准文件与模型权重，系统将自动执行多模态几何能力诊断。评估过程严格遵循单次提示直接应答机制，其结构化输出设计不仅保证结果可比性，更为几何认知机制的归因分析提供可靠数据支撑。

背景与挑战

背景概述

几何推理作为人工智能跨模态理解的核心领域，长期面临形式化表达与空间关系建模的双重难题。NoReGeo基准数据集由FusionBrainLab于2024年发布，专注于评估大语言模型与视觉语言模型的本质几何认知能力。该数据集通过2500道基础几何问题构建了25种任务类型，创新性地采用文本描述、点阵图像与完整图像三种模态呈现，旨在剥离代数运算与推理链条的干扰，直接探测模型对空间结构与几何属性的内隐编码。其设计理念突破了传统几何问题求解的范式，为认知计算与多模态表示学习提供了新的评估维度。

当前挑战

该数据集致力于解决几何认知评估中的模态鸿沟问题，核心挑战在于如何构建脱离符号推理的纯粹几何直觉测试。在数据构建阶段，需平衡视觉线索与文本描述的互补性，确保点阵图像能有效传递拓扑关系而完整图像不泄露冗余信息。标注过程中面临几何概念的多义性规约难题，特别是对不稳定任务中临界状态的标准化定义。此外，结构化输出模板的设计需克服模型指令遵循的差异性，防止数学专用模型因格式偏差导致性能误判，这些挑战共同构成了几何认知评估体系的方法论瓶颈。

常用场景

经典使用场景

在几何智能评估领域，NoReGeo数据集通过2,500道基础几何问题构建了无推理场景下的核心测试框架。该数据集采用文本与图像双模态设计，涵盖分类、数值计算及动态判断三大任务类型，有效剥离代数运算与思维链干扰，专注考察模型对空间关系、几何属性的本质理解。研究者通常借助其结构化输出机制，在单次前向传播中直接评估模型对点线面基本关系的认知能力，为几何认知研究提供纯净的测量环境。

衍生相关工作

基于NoReGeo的评估范式，衍生出多个标志性研究：Qwen2.5-VL-7B在完整图像模态下实现多项任务满分突破，推动视觉编码器架构革新；vLLM框架集成其自动评估流程，形成标准化几何基准测试生态；后续研究受其任务敏感性发现启发，开发出针对曲线几何的专项增强训练策略，显著提升模型在复杂空间推理任务中的表现。

数据集最近研究