CMM-Math|数学教育数据集|多模态模型数据集
收藏arXiv2024-09-05 更新2024-09-06 收录
下载链接:
https://github.com/ECNU-ICALK/EduChat-Math
下载链接
链接失效反馈资源简介:
CMM-Math是由华东师范大学创建的中文多模态数学数据集,旨在评估和提升大型多模态模型在数学推理方面的能力。该数据集包含超过28,000个高质量样本,涵盖从小学到高中的12个年级,涉及多种题型和详细的解答。数据集的创建过程包括基础预训练、基础微调和数学微调三个阶段,确保了数据集的高质量和多样性。CMM-Math主要应用于教育领域,旨在解决数学推理任务中的多模态问题,提升模型的数学推理能力。
提供机构:
华东师范大学
创建时间:
2024-09-05
AI搜集汇总
数据集介绍

构建方式
CMM-Math数据集的构建过程分为三个阶段。首先,从中国小学到高中的12个年级中收集了超过10,000份考试试卷,每份试卷包含多种题型,如选择题、填空题、分析题等,且题目可能包含视觉输入或纯文本。其次,使用Mathpix API将PDF格式的试题转换为Markdown格式,并下载提取的图像。最后,将问题从Markdown文本转换为JSON格式,包括题型、模态、问题、选项、答案、解答等字段,并通过多轮验证提高数据质量。
特点
CMM-Math数据集具有多个显著特点。首先,它是首个专注于中文的多模态数学数据集,填补了非英语多模态数学数据集的空白。其次,数据集包含超过28,000个高质量样本,涵盖12个年级和多种题型,如选择题、填空题、判断题和分析题。此外,数据集中的问题可能包含多个图像,增加了问题的复杂性。最后,数据集分为评估和训练两部分,旨在全面评估和提升大模型的数学推理能力。
使用方法
CMM-Math数据集可用于评估和训练大模型的数学推理能力。研究人员可以使用该数据集来测试现有大模型在多模态数学问题上的表现,并通过训练数据集来提升模型的性能。数据集的多样性和复杂性使其成为开发和验证多模态数学推理模型的理想资源。此外,数据集的详细解答和丰富的题干内容有助于模型学习更深层次的数学推理能力。
背景与挑战
背景概述
CMM-Math数据集由中国华东师范大学的教育信息技术系、教育人工智能实验室以及计算机科学与技术学院的研究团队于近期发布。该数据集旨在评估和提升大型多模态模型在数学推理方面的能力,填补了中文多模态数学数据集的空白。CMM-Math包含了超过28,000个高质量样本,涵盖了从小学到高中的12个年级,涉及多种题型和详细的解答。其核心研究问题是如何有效评估和提升大型多模态模型在数学推理中的表现,对教育人工智能领域具有重要影响。
当前挑战
CMM-Math数据集在构建过程中面临多项挑战。首先,如何从大量的考试试卷中提取和整理出高质量的数学问题,确保问题的多样性和复杂性。其次,如何处理和整合视觉信息与文本信息,使得模型能够理解和推理包含图像的数学问题。此外,数据集的标注和验证过程也需确保准确性和一致性。在应用层面,当前最先进的大型多模态模型在处理CMM-Math数据集时仍面临挑战,特别是在几何和逻辑推理方面,表明需要进一步改进和优化这些模型。
常用场景
经典使用场景
CMM-Math数据集的经典使用场景主要集中在评估和提升大型多模态模型(LMMs)在数学推理方面的性能。通过包含多种问题类型和详细解答的28,000多个高质量样本,该数据集能够全面测试LMMs在不同年级和数学领域的推理能力。具体应用包括但不限于多选题、填空题和分析题等,这些问题可能包含视觉上下文,从而增加了推理的复杂性。
解决学术问题
CMM-Math数据集解决了当前学术研究中缺乏中文多模态数学数据集的问题,填补了这一领域的空白。它不仅提供了丰富的评估基准,还为模型训练提供了大量数据,有助于推动LMMs在数学推理方面的研究进展。通过对比现有最先进的LMMs在该数据集上的表现,研究者可以识别出模型的不足之处,进而推动相关技术的改进和发展。
衍生相关工作
CMM-Math数据集的发布催生了一系列相关研究工作,特别是在多模态数学推理模型的开发和评估方面。例如,研究者们提出了专门针对多模态数学推理的LMM(Math-LMM),并通过三阶段的训练过程显著提升了模型的数学推理性能。此外,该数据集还促进了与其他多模态数学数据集(如MATHVISTA和MATH-V)的对比研究,进一步推动了多模态学习技术的发展。
以上内容由AI搜集并总结生成



