GGBench
收藏github2025-11-15 更新2025-11-18 收录
下载链接:
https://github.com/opendatalab-raiser/GGBench
下载链接
链接失效反馈官方服务:
资源简介:
GGBench是一个专为统一多模态模型设计的几何生成推理基准,包含1,411个几何构造问题,用于评估模型在语言理解与精确视觉构建融合方面的能力
GGBench is a geometric generation and reasoning benchmark designed specifically for unified multimodal models. It consists of 1,411 geometric construction problems, which is used to evaluate models' ability to integrate language understanding and precise visual construction.
创建时间:
2025-11-09
原始信息汇总
GGBench数据集概述
数据集简介
GGBench是一个几何生成推理基准,专为统一多模态模型设计。该数据集用于诊断模型是否能够融合语言理解与精确视觉构建,通过几何构造任务揭示系统在多模态间主动推理和结构化解决方案合成的能力。
核心研究问题
探究统一多模态模型能否将推理与受控视觉合成相结合,验证模型在生成式推理中的实际可靠性。
数据集规模
- 总样本量:1,411个几何构造问题
- 问题类型:包括基本构造、圆的性质、几何变换、三角形性质、定理应用、多边形性质、测量与比例、轨迹构造等多种几何问题类型
评估维度
- 规划能力:模型的任务规划能力评估
- 中间过程:生成过程中的质量评估
- 最终结果:生成结果的最终质量评估
- 综合得分:整体性能评估
评估指标
- VLM-T:基于文本的步骤推理评估(1-5分制)
- VLM-I-Mid:中间过程图像质量评估(步骤准确性、过程一致性、问题解决方案准确性)
- VLM-I-Res:最终结果图像质量评估(1-5分制)
- LPIPS ×10⁻²:学习感知图像块相似度
- PSNR:峰值信噪比
- SSIM ×10⁻²:结构相似性指数
数据获取
bash git lfs install git clone https://huggingface.co/datasets/opendatalab-raiser/GGBench
评估流程
- 进入
dataset/目录 - 在
evaluate.py中配置Judge Model URL和API Key - 设置模型输出JSON文件路径
- 运行评估脚本:
python evaluate.py
结果输出
- 详细结果保存至:
eval_output/result.json - 聚合分数保存至:
eval_output/score.json
相关资源
- 主页:https://opendatalab-raiser.github.io/GGBench/
- HuggingFace数据集:https://huggingface.co/datasets/opendatalab-raiser/GGBench
- GitHub代码库:https://github.com/opendatalab-raiser/GGBench
搜集汇总
数据集介绍

构建方式
在几何推理研究领域,GGBench数据集通过系统化方法构建了1,411个几何构造问题,涵盖基础构造、圆性质、几何变换等八大类别。该数据集采用标准化分类体系与评估协议,每个问题均经过多维度标注,包括规划阶段、中间过程与最终结果三个核心评估层次,形成统一的生成式推理诊断框架。数据构建过程注重几何问题的结构性特征,确保问题复杂度与认知层次形成梯度分布,为多模态模型的几何推理能力提供全面验证基础。
特点
作为几何生成推理领域的专业基准,GGBench的突出特点在于其多模态评估体系。该数据集突破传统判别式理解与无约束图像生成的分离评估模式,聚焦语言理解与精确视觉构建的融合能力。其评估维度涵盖文本推理质量、中间过程图像质量及最终结果图像质量,并引入LPIPS、PSNR、SSIM等客观图像指标。数据集问题设计具有明确的几何构造目标,能够有效揭示模型在结构化解决方案合成过程中的推理链完整性。
使用方法
研究者可通过官方提供的评估脚本对模型进行系统化测试。使用前需配置评估环境,指定模型输出路径并设置评判模型的API参数。评估过程自动执行多维度分析,包括基于视觉语言模型的文本推理评分、中间过程图像质量评估和最终结果质量评估。评估结果将生成标准化报告,包含各维度得分及雷达图可视化,支持研究者进行模型能力对比与薄弱环节诊断。数据集支持HuggingFace平台直接下载,确保评估过程的可复现性与一致性。
背景与挑战
背景概述
几何生成推理作为多模态人工智能的前沿领域,旨在探索模型如何融合语言理解与视觉构建能力。GGBench基准数据集由OpenDataLab团队于2024年发布,聚焦于统一多模态模型的几何推理效能评估。该数据集通过1411个几何构造问题,系统检验模型在规划、中间过程与最终结果等维度的表现,填补了传统评估方法在生成式推理验证方面的空白,为多模态认知研究提供了标准化测评框架。
当前挑战
几何生成推理面临双重挑战:在领域层面,模型需突破语言指令到几何构造的精确映射难题,包括空间关系理解、定理应用及动态构建过程的逻辑一致性维护;在构建层面,数据集需平衡几何问题的多样性与评估维度完整性,同时设计能够量化生成质量的多模态指标体系,确保评估结果既反映认知深度又具备可复现性。
常用场景
经典使用场景
在几何推理与多模态融合研究领域,GGBench作为专门设计的生成式评估基准,其经典应用场景聚焦于测试统一多模态模型在几何构造任务中的综合能力。该数据集通过系统化的几何问题集合,要求模型将语言理解与精确的视觉构建相结合,从而评估模型在生成几何图形过程中的推理准确性和结构一致性。这种评估不仅涵盖了从基础构造到复杂定理应用的多种几何类型,还通过标准化流程验证模型在多步骤推理中的表现,为生成式人工智能的几何认知研究提供了关键实验平台。
衍生相关工作
围绕GGBench产生的经典研究主要集中在多模态评估体系的创新与方法论拓展。基于该基准的评估结果,研究者开发了融合规划评估、过程一致性检验与结果质量分析的多维评价体系,催生了针对生成式推理的专门化评估指标。后续工作进一步探索了不同模型架构在几何任务中的表现差异,推动了动态推理链验证、跨模态对齐优化等技术的演进。这些衍生研究不仅完善了生成式多模态模型的评估范式,也为构建更具解释性的视觉语言模型提供了方法论支撑。
数据集最近研究
最新研究方向
在几何推理与多模态融合的前沿探索中,GGBench作为首个专注于几何生成式推理的基准测试,正推动统一多模态模型从感知理解向结构化视觉构建的跨越。该数据集通过1411个几何构造问题,系统评估模型在规划、中间过程与最终结果等维度的生成能力,揭示了语言引导视觉合成的关键瓶颈。当前研究聚焦于突破生成式推理的可靠性边界,结合VLM文本评估与图像质量指标,为几何教育、自动化证明等应用场景提供标准化评估框架,同时催化多模态模型在动态推理与精确生成协同机制上的理论创新。
以上内容由遇见数据集搜集并总结生成



