SolidGeo

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/HarryYancy/SolidGeo

下载链接

链接失效反馈

官方服务：

资源简介：

SolidGeo是一个专门设计用来评估MLLMs在立体几何数学推理任务上的性能的大规模基准数据集。SolidGeo包含了3113个真实世界的K-12和竞赛级别的问题，每个问题都配有了视觉上下文，并标注了3个难度级别和8个细粒度的立体几何类别。我们的基准数据集涵盖了广泛的三维推理主题，如投影、展开、空间测量和空间向量，为评估立体几何提供了一个严格的测试平台。

创建时间：

2025-05-06

原始信息汇总

SolidGeo数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 问答、多选、视觉问答、文本分类
语言: 英文、中文
标签: 推理、数学、多模态问答、数学问答、几何问答、视觉问答、几何推理、几何图表、文档图像、空间理解、算术推理
数据集名称: SolidGeo
规模: 1K<n<10K
配置: 默认配置
- 数据文件:
  - 训练集: data/train-*
  - 训练集样本数: 3,113
  - 训练集大小: 3,183,132字节
  - 下载大小: 1,165,152字节
  - 数据集大小: 3,183,132字节

数据集描述

SolidGeo是首个专门用于评估多模态大语言模型（MLLMs）在立体几何数学推理任务上性能的大规模基准数据集。数据集包含3,113个真实世界的K–12和竞赛级别问题，每个问题配有视觉上下文，并标注了3个难度级别和8个细粒度立体几何类别。数据集涵盖广泛的3D推理主题，如投影、展开、空间测量和空间向量，为评估立体几何提供了一个严格的测试平台。

数据集特征

问题: 字符串类型，问题文本
选项: 字符串序列，部分问题的选项
图像: 字符串序列，问题文本中使用的图像文件路径列表
答案: 字符串类型，问题的最终答案，以LaTeX格式提供
解决方案: 字符串序列，可选的问题解决步骤列表
答案类型: 字符串类型，答案格式："single_step"、"multi_step"、"choice"
问题类型: 字符串序列，数学问题分类
复杂度级别: 字符串类型，难度级别："Level 1"、"Level 2"、"Level 3"
来源: 字符串类型，问题的来源
问答ID: 整数类型，问题-答案对的唯一标识符

数据集示例

数据集包含多种立体几何问题的示例，如：

立体几何形式的测量
立体形状识别
空间度量关系
多视图投影
平面展开与配置
复合立体结构
3D坐标与向量推理
立体几何建模

数据格式

数据以JSON格式存储，包含问题、选项、图像、答案、解决方案、答案类型、问题类型、复杂度级别、来源和问答ID等字段。

引用

如需使用该数据集，请关注相关论文的发布。

搜集汇总

数据集介绍

构建方式

SolidGeo数据集的构建立足于立体几何数学推理领域，通过系统收集K-12教育阶段及竞赛级别的真实题目形成基础语料库。研究团队采用多模态标注范式，为每道题目配备视觉上下文信息，并依据三维推理的学科特点细分为8类几何主题。数据经过难度分级处理形成三级复杂度体系，最终构建的3113个样本均包含问题文本、选项序列、图像路径、LaTeX格式答案及分步解析，并通过唯一qa_id确保数据溯源性。

使用方法

研究者可通过HuggingFace平台直接加载数据集，每个样本以结构化JSON格式呈现。典型应用流程包括解析question字段获取问题陈述，结合image字段可视化几何图形，通过solution字段验证推理过程。评估时可依据complexity_level进行分层测试，或按problem_type分析模型在特定几何主题的表现。数据集的多元标注体系支持视觉问答、多选项分类等多种任务形式，为几何推理研究提供多维度的评估框架。

背景与挑战

背景概述

SolidGeo数据集由HarryYancy团队于2023年推出，是首个专注于评估多模态大语言模型在立体几何数学推理任务表现的大规模基准。该数据集包含3,113道源自K-12教育体系及竞赛级别的实际问题，涵盖投影、展开、空间测量等8类立体几何子领域，并标注了3级难度系数。作为几何推理领域的重要资源，SolidGeo填补了复杂空间认知任务评估工具的空白，为提升AI系统的三维空间智能提供了标准化测试平台。

当前挑战

SolidGeo面临的核心挑战体现在两个维度：在领域问题层面，立体几何涉及的三维空间转换与多模态表征对现有模型构成显著认知障碍，实验显示主流模型性能较人类水平存在30%以上差距；在构建过程中，需克服几何问题标注的高专业性要求，包括精确的数学表达式生成、跨模态对齐（图文匹配）以及8类子领域的知识体系划分，每个问题平均需要4.7个标注步骤才能确保质量。

常用场景

经典使用场景

在几何推理和多模态学习领域，SolidGeo数据集因其专注于立体几何问题而成为评估多模态大语言模型（MLLMs）性能的重要基准。该数据集通过结合视觉上下文和多选题形式，为研究者提供了一个测试模型在投影、展开、空间测量等复杂几何任务中表现的标准平台。其丰富的难度分级和细粒度分类进一步增强了评估的全面性。

解决学术问题

SolidGeo数据集有效解决了立体几何推理任务中缺乏标准化评估工具的学术痛点。通过涵盖8类立体几何问题和3级难度体系，该数据集为量化模型在空间理解、向量运算等核心能力的表现提供了可靠依据。实验数据表明，当前MLLMs在立体几何任务上与人类表现仍存在显著差距，这为改进模型的空间推理能力指明了研究方向。

实际应用

该数据集在智能教育领域展现出重要价值，其题目来源于真实K-12教育和竞赛场景，可用于开发自适应学习系统。通过分析模型在SolidGeo上的错误模式，教育科技公司能够精准定位学生在立体几何学习中的认知盲区，进而开发针对性训练模块。工程制图软件的智能辅助功能开发也可借助该数据集优化空间理解算法。

数据集最近研究