five

SolidGeo|数学教育数据集|机器学习数据集

收藏
huggingface2025-05-17 更新2025-05-18 收录
数学教育
机器学习
下载链接:
https://huggingface.co/datasets/HarryYancy/SolidGeo
下载链接
链接失效反馈
资源简介:
SolidGeo是一个专门设计用来评估MLLMs在立体几何数学推理任务上的性能的大规模基准数据集。SolidGeo包含了3113个真实世界的K-12和竞赛级别的问题,每个问题都配有了视觉上下文,并标注了3个难度级别和8个细粒度的立体几何类别。我们的基准数据集涵盖了广泛的三维推理主题,如投影、展开、空间测量和空间向量,为评估立体几何提供了一个严格的测试平台。
创建时间:
2025-05-06
原始信息汇总

SolidGeo数据集概述

基本信息

  • 许可证: CC-BY-4.0
  • 任务类别: 问答、多选、视觉问答、文本分类
  • 语言: 英文、中文
  • 标签: 推理、数学、多模态问答、数学问答、几何问答、视觉问答、几何推理、几何图表、文档图像、空间理解、算术推理
  • 数据集名称: SolidGeo
  • 规模: 1K<n<10K
  • 配置: 默认配置
    • 数据文件:
      • 训练集: data/train-*
      • 训练集样本数: 3,113
      • 训练集大小: 3,183,132字节
      • 下载大小: 1,165,152字节
      • 数据集大小: 3,183,132字节

数据集描述

SolidGeo是首个专门用于评估多模态大语言模型(MLLMs)在立体几何数学推理任务上性能的大规模基准数据集。数据集包含3,113个真实世界的K–12和竞赛级别问题,每个问题配有视觉上下文,并标注了3个难度级别和8个细粒度立体几何类别。数据集涵盖广泛的3D推理主题,如投影、展开、空间测量和空间向量,为评估立体几何提供了一个严格的测试平台。

数据集特征

  • 问题: 字符串类型,问题文本
  • 选项: 字符串序列,部分问题的选项
  • 图像: 字符串序列,问题文本中使用的图像文件路径列表
  • 答案: 字符串类型,问题的最终答案,以LaTeX格式提供
  • 解决方案: 字符串序列,可选的问题解决步骤列表
  • 答案类型: 字符串类型,答案格式:"single_step"、"multi_step"、"choice"
  • 问题类型: 字符串序列,数学问题分类
  • 复杂度级别: 字符串类型,难度级别:"Level 1"、"Level 2"、"Level 3"
  • 来源: 字符串类型,问题的来源
  • 问答ID: 整数类型,问题-答案对的唯一标识符

数据集示例

数据集包含多种立体几何问题的示例,如:

  • 立体几何形式的测量
  • 立体形状识别
  • 空间度量关系
  • 多视图投影
  • 平面展开与配置
  • 复合立体结构
  • 3D坐标与向量推理
  • 立体几何建模

数据格式

数据以JSON格式存储,包含问题、选项、图像、答案、解决方案、答案类型、问题类型、复杂度级别、来源和问答ID等字段。

引用

如需使用该数据集,请关注相关论文的发布。

AI搜集汇总
数据集介绍
main_image_url
构建方式
SolidGeo数据集的构建立足于立体几何数学推理领域,通过系统收集K-12教育阶段及竞赛级别的真实题目形成基础语料库。研究团队采用多模态标注范式,为每道题目配备视觉上下文信息,并依据三维推理的学科特点细分为8类几何主题。数据经过难度分级处理形成三级复杂度体系,最终构建的3113个样本均包含问题文本、选项序列、图像路径、LaTeX格式答案及分步解析,并通过唯一qa_id确保数据溯源性。
使用方法
研究者可通过HuggingFace平台直接加载数据集,每个样本以结构化JSON格式呈现。典型应用流程包括解析question字段获取问题陈述,结合image字段可视化几何图形,通过solution字段验证推理过程。评估时可依据complexity_level进行分层测试,或按problem_type分析模型在特定几何主题的表现。数据集的多元标注体系支持视觉问答、多选项分类等多种任务形式,为几何推理研究提供多维度的评估框架。
背景与挑战
背景概述
SolidGeo数据集由HarryYancy团队于2023年推出,是首个专注于评估多模态大语言模型在立体几何数学推理任务表现的大规模基准。该数据集包含3,113道源自K-12教育体系及竞赛级别的实际问题,涵盖投影、展开、空间测量等8类立体几何子领域,并标注了3级难度系数。作为几何推理领域的重要资源,SolidGeo填补了复杂空间认知任务评估工具的空白,为提升AI系统的三维空间智能提供了标准化测试平台。
当前挑战
SolidGeo面临的核心挑战体现在两个维度:在领域问题层面,立体几何涉及的三维空间转换与多模态表征对现有模型构成显著认知障碍,实验显示主流模型性能较人类水平存在30%以上差距;在构建过程中,需克服几何问题标注的高专业性要求,包括精确的数学表达式生成、跨模态对齐(图文匹配)以及8类子领域的知识体系划分,每个问题平均需要4.7个标注步骤才能确保质量。
常用场景
经典使用场景
在几何推理和多模态学习领域,SolidGeo数据集因其专注于立体几何问题而成为评估多模态大语言模型(MLLMs)性能的重要基准。该数据集通过结合视觉上下文和多选题形式,为研究者提供了一个测试模型在投影、展开、空间测量等复杂几何任务中表现的标准平台。其丰富的难度分级和细粒度分类进一步增强了评估的全面性。
解决学术问题
SolidGeo数据集有效解决了立体几何推理任务中缺乏标准化评估工具的学术痛点。通过涵盖8类立体几何问题和3级难度体系,该数据集为量化模型在空间理解、向量运算等核心能力的表现提供了可靠依据。实验数据表明,当前MLLMs在立体几何任务上与人类表现仍存在显著差距,这为改进模型的空间推理能力指明了研究方向。
实际应用
该数据集在智能教育领域展现出重要价值,其题目来源于真实K-12教育和竞赛场景,可用于开发自适应学习系统。通过分析模型在SolidGeo上的错误模式,教育科技公司能够精准定位学生在立体几何学习中的认知盲区,进而开发针对性训练模块。工程制图软件的智能辅助功能开发也可借助该数据集优化空间理解算法。
数据集最近研究
最新研究方向
在几何推理与多模态学习领域,SolidGeo数据集为研究者提供了一个独特的平台,专注于评估多模态大语言模型在立体几何数学推理任务中的表现。该数据集涵盖了从K-12到竞赛级别的3113个真实世界问题,涉及投影、展开、空间测量和空间向量等多个立体几何主题。最新研究聚焦于如何提升模型在复杂3D几何问题上的表现,尤其是在空间理解和视觉-语言联合推理方面。当前的热点包括探索模型在多层次难度问题上的泛化能力,以及如何通过引入更丰富的视觉上下文来增强几何推理的准确性。这一方向对于推动空间智能的发展具有重要意义,尤其在教育技术和自动化解题系统等应用场景中展现出广阔前景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

olympics.csv

该数据集包含不同国家参加奥运会的奖牌榜,数据来源于维基百科的历届奥运会奖牌榜。

github 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录