GGBench

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/opendatalab-raiser/GGBench

下载链接

链接失效反馈

官方服务：

资源简介：

GGBench数据集是一个用于评测的基准数据集，包含问题、问题图、文本答案和最终结果图等信息。数据集以JSON格式存储，每条样本具有唯一标识符'id'，以及相关的数据字段。该数据集适用于评估模型在生成最终结果图方面的性能，包括终图裁判、文本裁判、长流程裁判等多种评测模块。

创建时间：

2025-11-09

原始信息汇总

GGBench 数据集概述

基本信息

数据集名称：GGBench
许可证：Apache 2.0
存储地址：https://huggingface.co/datasets/opendatalab-raiser/GGBench

数据集内容

核心数据文件：GeoCraft_dataset.json（官方评测基准数据集）
数据格式：JSON格式
样本字段：
- id
- 问题
- 问题图
- 文本答案
- 最终结果图

评测功能

评测模块

终图裁判（VLM评估）
文本链裁判
长流程裁判
LPIPS（深度感知指标）
PSNR（像素级指标）
SSIM（结构相似性指标）

评测指标

步骤准确性（Step Accuracy）
过程一致性（Process Consistency）
问题解决准确性（Problem-Solution Accuracy）

技术特性

环境要求

Python 3.9及以上
依赖库：openai、numpy、torch、Pillow、scikit-image、tqdm、lpips等

配置参数

裁判模型配置（支持OpenAI兼容接口）
路径配置（数据集根目录、预测根目录）
模块开关控制
并发线程数设置

使用流程

数据下载与目录准备
环境依赖安装
配置文件调整
执行评测脚本
结果查看（eval_output目录）

输出结果

result.json：评测结果汇总
result.jsonl：逐行JSON格式结果
evaluate.log：完整运行日志

扩展性

支持提示词模板定制（eval_prompts.py）
支持新增评测指标
支持多模型批量评测
支持增量评测和部分模块运行

搜集汇总

数据集介绍

构建方式

GGBench数据集作为地理空间生成领域的专业评测基准，其构建过程遵循严谨的多模态数据采集原则。数据集核心来源于GeoCraft平台的结构化标注数据，每条样本均包含唯一标识符、自然语言问题描述、原始问题图像、标准文本答案及最终结果图像。数据采集阶段通过专业地理信息工具生成真实场景的问题图与结果图，确保空间关系的准确性与视觉一致性。文本标注由领域专家团队完成，采用双重校验机制保证答案的规范性和逻辑完整性。数据预处理环节通过统一格式转换和路径标准化，形成可直接用于多模态模型评测的JSON结构化文件。

特点

该数据集最显著的特征在于其全方位的评测维度设计，覆盖文本生成质量、图像生成保真度以及多步骤推理能力。数据集提供标准化的评测脚本体系，集成视觉语言模型裁判机制与传统图像质量指标。评测模块支持灵活配置，可根据研究需求独立启用终图裁判、文本链分析或长流程一致性评估。技术实现上融合了深度学习感知指标与符号逻辑验证，既包含LPIPS、PSNR、SSIM等量化评估，又具备问题解决准确性的语义层面判断。数据组织采用模块化架构，原始资源与生成结果通过统一路径映射实现高效访问。

使用方法

使用本数据集需遵循标准化的评测流程，首先通过Git LFS获取完整数据包并解压至本地目录。环境配置要求Python 3.9及以上版本，需安装包含OpenAI接口、计算机视觉库及深度学习框架的依赖包。评测前需准备待测模型的输出文件，确保其JSON结构与数据集标识符严格对应。运行评测脚本时会自动触发多模块并行计算，包括视觉语言模型对比、文本语义匹配和生成过程一致性分析。结果输出采用增量更新策略，既支持完整评测也允许针对特定模型输出的局部重评估。用户可通过修改提示词模板和调整裁判模型参数来实现定制化评测需求。

背景与挑战

背景概述

GGBench数据集作为几何图形生成领域的专业评测基准，由OpenDataLab等机构联合构建，旨在系统评估多模态模型在复杂几何推理任务中的综合能力。该数据集聚焦于几何问题的文本描述与图形生成之间的语义对齐，通过结构化的问题图、文本答案和最终结果图三元组，推动生成模型在几何认知与空间逻辑方面的深入研究。其创新性地引入流程一致性评估维度，为几何智能领域提供了首个涵盖多步骤推理的标准化评测框架，显著提升了生成模型在科学计算与教育应用中的可靠性。

当前挑战

该数据集核心挑战在于解决几何图形生成中语义保真度与空间准确性的平衡问题，要求模型同时理解自然语言描述与几何约束关系。构建过程中面临多模态数据对齐的复杂性，需确保问题图、文本答案与生成图像之间的严格逻辑对应。评测体系需克服生成结果主观性强的难点，通过融合视觉语言模型的语义裁判与传统图像质量指标，建立兼顾生成质量与几何正确性的多维评估标准。长流程任务的评估进一步增加了对模型中间状态追踪与过程一致性量化的技术难度。

常用场景

经典使用场景

在几何图形生成与推理领域，GGBench数据集作为标准化评测基准，广泛应用于评估多模态模型的综合能力。其经典使用场景聚焦于模型对几何问题的理解、多步骤推理及图形生成质量的系统性检验，通过整合文本描述与视觉元素，模拟真实几何问题求解流程，为模型性能提供全面客观的量化依据。

实际应用

在实际应用层面，GGBench支撑的教育智能系统可实现几何习题自动解题与图解生成，辅助个性化教学；在工业设计领域，其多步骤验证框架可用于机械制图逻辑校验，提升设计自动化系统的可靠性。该数据集通过可配置的模块化评测方案，为垂直领域应用提供可复现的质量评估范式。

衍生相关工作

基于GGBench的评测范式，衍生出诸多经典研究工作。例如采用动态提示优化的几何推理增强方法，结合LPIPS与SSIM的多粒度图像质量评估体系，以及融合过程一致性检测的端到端训练框架。这些工作持续拓展了几何图形联合建模的理论边界，催生了新一代具身智能系统的技术迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集