five

mathvision |数学推理数据集|多模态学习数据集

收藏
github2024-02-24 更新2024-05-31 收录
数学推理
多模态学习
下载链接:
https://github.com/mathvision-cuhk/MathVision
下载链接
链接失效反馈
资源简介:
Recent advancements in Large Multimodal Models (LMMs) have shown promising results in mathematical reasoning within visual contexts, with models approaching human-level performance on existing benchmarks such as MathVista. However, we observe significant limitations in the diversity of questions and breadth of subjects covered by these benchmarks. To address this issue, we present the MATH-Vision (MATH-V) dataset, a meticulously curated collection of 3,040 high-quality mathematical problems with visual contexts sourced from real math competitions. Spanning 16 distinct mathematical disciplines and graded across 5 levels of difficulty, our dataset provides a comprehensive and diverse set of challenges for evaluating the mathematical reasoning abilities of LMMs.
创建时间:
2024-02-17
原始信息汇总

数据集概述

数据集名称

  • MATH-Vision (MATH-V) 数据集

数据集描述

  • MATH-Vision (MATH-V) 数据集 是一个包含3,040个高质量数学问题的集合,这些问题均带有视觉上下文,来源于真实的数学竞赛。该数据集涵盖16个不同的数学领域,并根据难度分为5个等级,旨在全面评估大型多模态模型(LMMs)在数学推理方面的能力。

数据集特点

  • 多模态数学推理:数据集设计用于评估模型在视觉上下文中的数学推理能力。
  • 广泛的主题覆盖:涵盖16个数学领域,包括分析几何、拓扑学和图论等。
  • 多级难度:问题根据难度分为5个等级,从易到难。

数据集使用

  • 模型评估:数据集用于评估如GPT-4、GPT-4V、Gemini等模型的数学推理性能。
  • 研究工具:提供评估代码和数据,支持研究者在数学推理领域的进一步探索。

数据集访问

相关研究

  • 论文:详细描述数据集构建和评估的论文可在 ArXiv 上获取。

数据集示例

  • 示例内容:包括分析几何、拓扑学和图论等领域的具体问题示例。
  • 示例访问:详细示例可在论文的附录D.3中找到。

评估与结果

  • 模型表现:截至最新更新,GPT-4o在MATH-V上的得分为30.39%,而人类表现约为70%。
  • 评估工具:提供评估脚本,用于计算模型输出的准确性和各学科及难度的表现。

引用信息

  • 引用格式

    @misc{wang2024measuring, title={Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset}, author={Ke Wang and Junting Pan and Weikang Shi and Zimu Lu and Mingjie Zhan and Hongsheng Li}, year={2024}, eprint={2402.14804}, archivePrefix={arXiv}, primaryClass={cs.CV} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MATH-Vision数据集的构建基于对数学竞赛中真实问题的精心筛选与整理,涵盖了16个不同的数学领域,并根据难度分为5个等级。该数据集通过引入视觉上下文,旨在评估多模态模型在数学推理任务中的表现,从而填补现有基准在问题多样性和学科广度上的不足。
使用方法
使用MATH-Vision数据集时,用户可以通过运行提供的Python脚本生成不同模型的输出,并使用评估脚本对这些输出进行准确性分析。具体操作包括运行Gemini或GPT-4V等模型的脚本,生成结果后通过`evaluate.py`脚本进行评估,计算总体准确率及各领域和难度级别的准确率。
背景与挑战
背景概述
近年来,大型多模态模型(LMMs)在视觉情境下的数学推理任务中展现出显著进展,但现有基准在问题多样性和涵盖学科广度上存在明显局限。为此,MATH-Vision(MATH-V)数据集应运而生,由王珂等人于2024年精心构建,旨在提供一个全面且多样化的数学推理评估平台。该数据集包含3,040个高质量数学问题,源自实际数学竞赛,涵盖16个不同数学领域,并按难度分为五个等级。MATH-V的推出不仅填补了现有基准的空白,还为推动多模态模型在数学推理领域的进一步发展提供了重要资源。
当前挑战
MATH-Vision数据集面临的主要挑战包括:首先,如何确保问题多样性和学科覆盖的广泛性,以全面评估多模态模型的数学推理能力。其次,构建过程中需克服从真实竞赛中提取高质量数学问题的复杂性,确保问题的准确性和适用性。此外,数据集的评估方法需精确反映模型在不同难度和学科上的表现,以揭示当前多模态模型与人类表现之间的显著差距。这些挑战不仅推动了数据集的精细化设计,也为未来多模态模型的发展指明了方向。
常用场景
经典使用场景
MATH-Vision数据集的经典使用场景主要集中在多模态数学推理任务的评估与研究。该数据集通过提供3,040个高质量的数学问题,涵盖16个不同的数学领域和5个难度级别,为大型多模态模型(LMMs)的数学推理能力提供了全面的测试平台。研究者可以利用该数据集评估模型在处理视觉上下文中的数学问题的能力,从而推动多模态学习技术的发展。
解决学术问题
MATH-Vision数据集解决了现有数学推理基准在问题多样性和学科覆盖范围上的不足。通过提供多样化的数学问题和视觉上下文,该数据集为学术界提供了一个标准化的评估工具,帮助研究者识别和改进多模态模型在数学推理中的性能差距。这不仅推动了多模态学习技术的进步,也为未来模型设计提供了重要的参考依据。
实际应用
MATH-Vision数据集在实际应用中具有广泛的前景,特别是在教育科技和自动化评估系统中。例如,它可以用于开发智能辅导系统,帮助学生通过视觉和文本结合的方式解决复杂的数学问题。此外,该数据集还可用于评估和优化自动化考试系统,确保其在处理多模态输入时的准确性和可靠性。
数据集最近研究
最新研究方向
在多模态数学推理领域,MATH-Vision数据集的最新研究方向主要集中在提升大型多模态模型(LMMs)在复杂视觉数学问题上的表现。随着GPT-4V、GPT-4o等先进模型的引入,研究者们致力于通过更精确的答案提取和模型优化,缩小当前LMMs与人类表现之间的差距。此外,MATH-Vision数据集的多样性和高难度问题设置,推动了模型在不同数学学科和难度级别上的综合评估,为未来多模态数学推理模型的研发提供了重要的基准和方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录