five

CMM-Math|数学教育数据集|多模态模型数据集

收藏
arXiv2024-09-05 更新2024-09-06 收录
数学教育
多模态模型
下载链接:
https://github.com/ECNU-ICALK/EduChat-Math
下载链接
链接失效反馈
资源简介:
CMM-Math是由华东师范大学创建的中文多模态数学数据集,旨在评估和提升大型多模态模型在数学推理方面的能力。该数据集包含超过28,000个高质量样本,涵盖从小学到高中的12个年级,涉及多种题型和详细的解答。数据集的创建过程包括基础预训练、基础微调和数学微调三个阶段,确保了数据集的高质量和多样性。CMM-Math主要应用于教育领域,旨在解决数学推理任务中的多模态问题,提升模型的数学推理能力。
提供机构:
华东师范大学
创建时间:
2024-09-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMM-Math数据集的构建过程分为三个阶段。首先,从中国小学到高中的12个年级中收集了超过10,000份考试试卷,每份试卷包含多种题型,如选择题、填空题、分析题等,且题目可能包含视觉输入或纯文本。其次,使用Mathpix API将PDF格式的试题转换为Markdown格式,并下载提取的图像。最后,将问题从Markdown文本转换为JSON格式,包括题型、模态、问题、选项、答案、解答等字段,并通过多轮验证提高数据质量。
特点
CMM-Math数据集具有多个显著特点。首先,它是首个专注于中文的多模态数学数据集,填补了非英语多模态数学数据集的空白。其次,数据集包含超过28,000个高质量样本,涵盖12个年级和多种题型,如选择题、填空题、判断题和分析题。此外,数据集中的问题可能包含多个图像,增加了问题的复杂性。最后,数据集分为评估和训练两部分,旨在全面评估和提升大模型的数学推理能力。
使用方法
CMM-Math数据集可用于评估和训练大模型的数学推理能力。研究人员可以使用该数据集来测试现有大模型在多模态数学问题上的表现,并通过训练数据集来提升模型的性能。数据集的多样性和复杂性使其成为开发和验证多模态数学推理模型的理想资源。此外,数据集的详细解答和丰富的题干内容有助于模型学习更深层次的数学推理能力。
背景与挑战
背景概述
CMM-Math数据集由中国华东师范大学的教育信息技术系、教育人工智能实验室以及计算机科学与技术学院的研究团队于近期发布。该数据集旨在评估和提升大型多模态模型在数学推理方面的能力,填补了中文多模态数学数据集的空白。CMM-Math包含了超过28,000个高质量样本,涵盖了从小学到高中的12个年级,涉及多种题型和详细的解答。其核心研究问题是如何有效评估和提升大型多模态模型在数学推理中的表现,对教育人工智能领域具有重要影响。
当前挑战
CMM-Math数据集在构建过程中面临多项挑战。首先,如何从大量的考试试卷中提取和整理出高质量的数学问题,确保问题的多样性和复杂性。其次,如何处理和整合视觉信息与文本信息,使得模型能够理解和推理包含图像的数学问题。此外,数据集的标注和验证过程也需确保准确性和一致性。在应用层面,当前最先进的大型多模态模型在处理CMM-Math数据集时仍面临挑战,特别是在几何和逻辑推理方面,表明需要进一步改进和优化这些模型。
常用场景
经典使用场景
CMM-Math数据集的经典使用场景主要集中在评估和提升大型多模态模型(LMMs)在数学推理方面的性能。通过包含多种问题类型和详细解答的28,000多个高质量样本,该数据集能够全面测试LMMs在不同年级和数学领域的推理能力。具体应用包括但不限于多选题、填空题和分析题等,这些问题可能包含视觉上下文,从而增加了推理的复杂性。
解决学术问题
CMM-Math数据集解决了当前学术研究中缺乏中文多模态数学数据集的问题,填补了这一领域的空白。它不仅提供了丰富的评估基准,还为模型训练提供了大量数据,有助于推动LMMs在数学推理方面的研究进展。通过对比现有最先进的LMMs在该数据集上的表现,研究者可以识别出模型的不足之处,进而推动相关技术的改进和发展。
衍生相关工作
CMM-Math数据集的发布催生了一系列相关研究工作,特别是在多模态数学推理模型的开发和评估方面。例如,研究者们提出了专门针对多模态数学推理的LMM(Math-LMM),并通过三阶段的训练过程显著提升了模型的数学推理性能。此外,该数据集还促进了与其他多模态数学数据集(如MATHVISTA和MATH-V)的对比研究,进一步推动了多模态学习技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

MNIST

The MNIST database (Modified National Institute of Standards and Technology database) is a large collection of handwritten digits. It has a training set of 60,000 examples, and a test set of 10,000 examples. It is a subset of a larger NIST Special Database 3 (digits written by employees of the United States Census Bureau) and Special Database 1 (digits written by high school students) which contain monochrome images of handwritten digits. The digits have been size-normalized and centered in a fixed-size image. The original black and white (bilevel) images from NIST were size normalized to fit in a 20x20 pixel box while preserving their aspect ratio. The resulting images contain grey levels as a result of the anti-aliasing technique used by the normalization algorithm. the images were centered in a 28x28 image by computing the center of mass of the pixels, and translating the image so as to position this point at the center of the 28x28 field.

Papers with Code 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录