MM-Math-Align

Hugging Face2025-05-26 更新2025-05-27 收录

下载链接：

https://huggingface.co/datasets/THU-KEG/MM-Math-Align

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含编程、数学和视觉对齐相关内容的图像-文本对数据集，适用于图像到文本和文本到图像的任务。数据集由正例图片和文本描述以及多个负例图片和文本描述组成，大小在10K到100K之间，遵循apache-2.0协议。

创建时间：

2025-05-23

原始信息汇总

数据集概述：MM-Math-Align

基本信息

许可证: Apache-2.0
任务类别:
- 文本到图像 (text-to-image)
- 图像到文本 (image-to-text)
语言: 英语 (en)
标签:
- 代码 (code)
- 数学 (math)
- 视觉对齐 (vision-alignment)
规模分类: 10K < n < 100K

数据集特征

特征字段:
- positive_image: 图像类型
- original_image: 图像类型
- positive_caption: 字符串类型
- negative_{0-9}_caption: 字符串类型
- negative_{0-9}_image: 图像类型

数据集统计

训练集:
- 样本数量: 4021
- 字节大小: 1,737,269,934.799
下载大小: 1,578,203,894
数据集大小: 1,737,269,934.799

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在几何教育领域，MM-Math-Align数据集通过精心设计的对比学习框架构建而成。该数据集源自真实中学考试中的几何题目，每个样本包含原始几何图形、近似重建该图形的Python脚本生成图像、描述重建图像的文本标注，以及基于正例生成的10个负例脚本图像及其对应标注。数据采集过程严格遵循教育场景的真实性，通过程序化生成负例样本确保几何理解的细粒度对比。

特点

该数据集最显著的特征在于其多层次对比结构的设计。每个样本单元包含1个正例和10个负例的图文对，为几何理解任务提供了丰富的对比学习材料。数据覆盖初中几何核心知识点，图像与文本的双模态对齐体现了几何问题的空间关系与语义描述之间的复杂映射。样本量达4021个，在保持教育实用性的同时满足机器学习模型的训练需求。

使用方法

该数据集适用于多模态对比学习任务的模型训练与评估。研究人员可通过正负例的图文对比，优化模型对几何图形的细粒度理解能力。使用时应注重正例图像与原始图像的几何一致性验证，负例样本可用于构建难负例挖掘策略。数据集支持端到端的跨模态表示学习，建议结合对比损失函数进行模型优化，以提升几何命题的视觉-语言对齐效果。

背景与挑战

背景概述

MM-Math-Align数据集由清华大学知识工程组（THU-KEG）于2025年发布，旨在推动多模态模型在几何理解领域的细粒度对齐研究。该数据集基于MM-Math构建，源数据来自真实中学几何考题，包含原始几何图示、Python脚本重构图像及正负样本对。通过引入对比学习框架，该数据集为解决几何图形与文本描述间的精确对齐问题提供了基准，对教育科技和计算机视觉交叉领域具有重要价值。

当前挑战

该数据集的核心挑战在于几何图形的细粒度语义对齐：一方面需解决原始图示与Python生成图像间的结构一致性验证问题，这对模型的几何拓扑理解能力提出极高要求；另一方面，构建过程中需人工设计10种负样本变体，包括几何元素位移、比例失真等干扰因素，其生成逻辑既要保证错误显著性，又要避免超出中学几何知识范畴。此外，多模态数据标注的精确性与效率间的平衡也是构建过程中的主要难点。

常用场景

经典使用场景

在几何图形理解与多模态学习领域，MM-Math-Align数据集通过提供原始几何图形及其Python脚本重构图像，为研究者构建了细粒度对比学习的基准测试平台。该数据集特别适用于训练模型区分几何图形中的细微差异，例如角度变化、线段长度差异等几何特征的精确识别。

实际应用

在教育科技领域，该数据集支撑的模型可自动批改几何作业，识别学生绘图中的拓扑错误；在CAD设计领域，能辅助完成图纸与代码的双向验证。其细粒度对齐能力也为数学教育软件的智能反馈系统提供了核心技术支撑。

衍生相关工作

基于该数据集衍生的MMGeoLM框架开创了几何多模态预训练新范式，相关研究已扩展至三维几何重建、动态几何演示生成等领域。其硬负样本构建策略被后续工作如GeoCLIP、ShapeBERT等广泛借鉴，形成了几何多模态理解的系列突破性成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集