five

MMGeoLM

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/THU-KEG/MMGeoLM
下载链接
链接失效反馈
官方服务:
资源简介:
MMGeoLM是一个由清华大学开发的多模态数学数据集,包含12,000个几何问题,旨在提高大型多模态模型在几何推理任务中的性能。该数据集基于真实考试题目构建,并利用LLM生成详细的文字描述和几何图形代码。数据集通过两种方式构建负样本:基于图像的对比学习和基于文本的对比学习。图像负样本通过生成和扰动几何图形代码来创建,文本负样本通过修改几何描述和基于相似性检索来创建。MMGeoLM数据集用于训练MMCLIP模型,该模型在几何推理基准测试中取得了显著成果。

MMGeoLM is a multimodal mathematical dataset developed by Tsinghua University, which contains 12,000 geometry problems and aims to improve the performance of large multimodal models in geometric reasoning tasks. This dataset is built upon real examination questions, and leverages LLMs to generate detailed textual descriptions and geometric graphics code. Two approaches are employed to construct negative samples for the dataset: image-based contrastive learning and text-based contrastive learning. Specifically, image negative samples are created by generating and perturbing geometric graphics code, while text negative samples are generated by modifying geometric descriptions and conducting similarity-based retrieval. The MMGeoLM dataset is utilized to train the MMCLIP model, which has achieved remarkable results on geometric reasoning benchmarks.
提供机构:
清华大学
创建时间:
2025-05-26
原始信息汇总

MMGeoLM 数据集概述

项目简介

  • 目标:增强大型多模态模型(LMMs)的几何问题解决能力
  • 主要组件
    1. 构建综合几何数据集
    2. 使用困难负样本训练视觉编码器
    3. 对LMMs进行监督微调

几何数据集 (MM-Math-Align)

  • 基础数据源:基于MM-Math构建,源自中学考试实际几何题
  • 样本量:4,021个样本
  • 样本内容
    • 原始几何图
    • 近似重建原始图的Python脚本图像
    • 描述正样本图像的标题
    • 10个基于正样本生成的负Python脚本图像
    • 10个对应的负标题

数据集构建脚本

  1. 代码生成:使用code_generation.py生成几何图
  2. 二次验证:通过re_verification.py验证生成图像
  3. 负标题构造:参考prompts.py中的提示设置

困难负样本训练

  • 修改CLIP训练策略:支持任意数量负样本
  • 数据格式
    • 图像负样本:包含正图像路径、负图像路径列表和对话内容
    • 文本负样本:包含正图像路径、负标题列表和对话内容

监督微调

  • 基础模型:Qwen2.5-7B-Instruct
  • 两阶段训练
    1. 第一阶段:冻结视觉编码器和LLM,训练MLP
    2. 第二阶段:整合预训练MLP模块,全模型微调

引用

bibtex @misc{sun2025hardnegativecontrastivelearning, title={Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models}, author={Kai Sun and Yushi Bai and Zhen Yang and Jiajie Zhang and Ji Qi and Lei Hou and Juanzi Li}, year={2025}, eprint={2505.20152}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.20152}, }

搜集汇总
数据集介绍
main_image_url
构建方式
MMGeoLM数据集的构建采用了创新的硬负样本对比学习框架,通过系统性地生成图像和文本负样本来增强大型多模态模型的几何推理能力。具体而言,该数据集通过两种方式构建负样本:一是基于图像的对比学习,利用生成式方法通过扰动图表生成代码创建视觉相似的负样本;二是基于文本的对比学习,采用规则修改几何描述和基于检索的负样本来提升模型对几何元素的识别能力。此外,数据集还包含12K高质量几何问题,这些问题与中学课程内容对齐,并通过逐步推理过程进行结构化处理。
特点
MMGeoLM数据集的特点在于其专注于几何推理任务,通过精心设计的硬负样本提升了模型对几何元素的细粒度识别能力。数据集涵盖了多种几何问题类型,包括平面几何和解析几何,并包含丰富的几何元素和关系属性。此外,数据集中的负样本不仅视觉上与正样本相似,还在关键几何属性上存在差异,从而有效增强模型的对比学习效果。实验表明,基于该数据集训练的模型在多个几何推理基准测试中显著优于现有开源模型,甚至在某些任务上超越了闭源模型如GPT-4o。
使用方法
MMGeoLM数据集的使用方法主要包括三个步骤:首先,利用数据集中的图像和文本负样本对视觉编码器进行预训练,以增强其对几何元素的理解能力;其次,通过监督微调阶段,使用数据集中的几何问题及其结构化解决方案对多模态模型进行训练,提升其问题解决能力;最后,在评估阶段,使用数据集中的测试集对模型性能进行量化分析。该数据集特别适用于研究几何推理任务的模型训练和评估,用户可以通过调整负样本的数量和类型来优化模型性能。
背景与挑战
背景概述
MMGeoLM数据集由清华大学Kai Sun等研究人员于2025年提出,旨在提升大型多模态模型在几何推理任务中的细粒度理解能力。该数据集源于对现有视觉语言模型在几何问题求解中表现不足的观察,特别是在识别几何元素和空间关系方面存在显著缺陷。研究人员通过创新的硬负样本对比学习框架,构建了包含12K高质量几何问题的训练集,覆盖中学课程标准的平面几何与解析几何内容。该工作通过结合基于生成的图像负样本和基于规则的文本负样本,显著提升了模型在GeoQA、MathVISTA等几何推理基准上的表现,甚至超越了GPT-4o等商业模型。
当前挑战
MMGeoLM面临的挑战主要体现在两个维度:在领域问题层面,几何推理要求模型精确识别视觉元素(如角度、平行关系)并建立数学关联,而现有视觉编码器在预训练时缺乏对几何特征的专门优化;在构建过程层面,数据合成依赖LLM生成的代码和标注,可能引入系统性偏差,且真实几何问题的多样性使得负样本设计需要平衡语义相似性与几何正确性。此外,评估发现模型在需要多步推理的复杂问题上表现仍有局限,反映出几何逻辑链建模的不足。
常用场景
经典使用场景
MMGeoLM数据集在几何数学推理领域具有广泛的应用场景,特别是在需要精细几何元素识别和空间关系理解的复杂几何问题求解中。该数据集通过结合图像和文本的对比学习,显著提升了大型多模态模型在几何问题上的表现。其经典使用场景包括几何证明题求解、几何图形识别与分类以及几何关系推理等任务。
实际应用
在实际应用中,MMGeoLM数据集可广泛应用于教育技术领域,如智能几何解题系统的开发、在线教育平台的自动批改功能以及个性化学习推荐系统。此外,该数据集还可用于计算机辅助设计(CAD)软件的智能识别功能,帮助工程师更高效地处理几何图形。其强大的几何理解能力也为机器人导航、增强现实等领域的空间感知任务提供了技术支持。
衍生相关工作
基于MMGeoLM数据集的研究衍生了一系列重要工作,包括几何问题自动求解系统GeoQA、多模态数学评估基准MM-MATH以及视觉数学推理任务We-Math等。这些工作不仅扩展了数据集的应用范围,还推动了多模态模型在数学教育、计算机视觉等领域的交叉研究。特别是MAVIS数据集和G-LLaVA模型,都借鉴了MMGeoLM的硬负样本构建方法,进一步提升了多模态模型的几何理解能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作