five

MathVerse|多模态学习数据集|人工智能数据集

收藏
github2024-03-21 更新2024-05-31 收录
多模态学习
人工智能
下载链接:
https://github.com/ZrrSkywalker/MathVerse
下载链接
链接失效反馈
资源简介:
MathVerse是由CUHK MMLab、上海人工智能实验室和加州大学洛杉矶分校联合构建的一个基准测试数据集,旨在全面评估多模态大模型(MLLMs)在视觉数学问题解决中对图表的理解能力。该数据集收集了 2612 个多模态数学题,覆盖平面几何、立体几何和函数3大领域,并进一步细分为12个子领域。每个问题被转化为6个不同版本,以不同的文本和视觉信息内容进行测试,共计产生15,672个测试样本。MathVerse旨在深入探究 MLLMs 是否真正具备解读和解答多模态数学题的能力,为未来的技术发展提供独特的见解。
提供机构:
CUHK MMLab、上海人工智能实验室、加州大学洛杉矶分校
创建时间:
2024-03-21
原始信息汇总

数据集概述

名称: MathVerse

目的: 评估多模态大型语言模型(MLLMs)在视觉数学问题解决中的能力,特别是对输入图表的理解和推理。

特点:

  • 问题数量: 2,612个高质量、多学科的数学问题,每个问题有六个不同版本。
  • 样本总数: 总计15,000个测试样本。
  • 评估策略: 引入链式思维(CoT)评估策略,通过GPT-4(V)提取关键推理步骤并进行详细错误分析。

数据集组成:

  • testmini.json: 包含788个视觉数学问题的五个主要版本,用于计算整体得分。
  • testmini_text_only.json: 包含788个仅文本的测试样本,用于评估视觉图表理解能力。

评估方法:

  • w/o 分数: 使用 query_wo 作为输入,直接输出答案进行评估。
  • CoT 评估: 使用 query_cot 作为输入,鼓励模型提供逐步推理过程进行评估。

数据集访问:

  • 可通过Hugging Face平台下载,使用命令 from datasets import load_dataset 进行加载。

数据集使用示例

python from datasets import load_dataset

dataset = load_dataset("AI4Math/MathVerse", "testmini") dataset_text_only = load_dataset("AI4Math/MathVerse", "testmini_text_only")

访问数据集示例

print(dataset["testmini"][0]) print(dataset_text_only["testmini_text_only"][0])

评估流程

  1. 答案提取: 使用ChatGPT/GPT-4 API提取答案。
  2. 答案评分: 使用提取的答案与标准答案进行匹配评分。

引用信息

latex @article{zhang2024mathverse, title={MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?}, author={Zhang, Renrui and Jiang, Dongzhi and Zhang, Yichi and Lin, Haokun and Guo, Ziyu and Qiu, Pengshuo and Zhou, Aojun and Lu, Pan and Chang, Kai-Wei and Gao, Peng and others}, journal={arXiv preprint arXiv:2403.14624}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MathVerse数据集的构建旨在深入评估多模态大语言模型(MLLMs)在视觉数学问题解决中的能力。研究团队从公开来源精心收集了2,612道高质量、多学科的数学问题,每道问题均包含图表。随后,通过人工标注将每道问题转化为六种不同版本,每种版本在多模态信息内容上提供不同程度的支持,最终形成了共计15,000个测试样本。这一构建方式确保了数据集能够全面评估MLLMs是否真正理解视觉图表以进行数学推理。
特点
MathVerse数据集的核心特点在于其多样化的多模态问题版本设计。每道数学问题被转化为六种不同版本,涵盖了从文本主导到视觉主导的多种信息组合,使得数据集能够细致评估MLLMs在不同信息条件下的表现。此外,数据集还引入了链式思维(CoT)评估策略,通过GPT-4(V)提取关键推理步骤并进行详细错误分析,进一步揭示了MLLMs在中间推理过程中的质量。
使用方法
MathVerse数据集的使用方法主要包括评估和推理两个步骤。用户可以通过lmms-eval工具进行高效评估,首先安装相关包并指定模型类型、路径和输出路径,随后运行评估脚本。对于未支持lmms-eval的模型,用户可以使用提供的代码自行进行答案提取和评分。数据集还提供了详细的模板和示例,帮助用户准备结果文件并进行推理。通过这种方式,用户能够全面评估MLLMs在视觉数学问题上的表现,并参与数据集的排行榜更新。
背景与挑战
背景概述
MathVerse数据集由香港中文大学的研究团队于2024年推出,旨在深入评估多模态大语言模型(MLLMs)在视觉数学问题解决中的能力。该数据集包含2,612个高质量的多学科数学问题,每个问题通过人工标注转化为六个不同版本,共计15,000个测试样本。MathVerse的核心研究问题在于探究MLLMs是否真正理解并利用视觉图表进行数学推理。该数据集的发布填补了多模态数学推理评估领域的空白,为相关研究提供了重要的基准工具。
当前挑战
MathVerse面临的挑战主要体现在两个方面。首先,在领域问题层面,现有的多模态大语言模型在处理视觉数学问题时,往往依赖于文本内容而非真正理解图表信息,导致评估结果存在偏差。其次,在数据集构建过程中,如何确保每个问题的六个版本在信息量上保持一致性,同时避免引入人为偏见,是一项复杂且耗时的工作。此外,数据集的评估策略需要精细设计,以确保能够准确反映模型的推理能力,而非简单的答案匹配。
常用场景
经典使用场景
MathVerse数据集在评估多模态大语言模型(MLLMs)在视觉数学问题解决中的表现方面具有重要应用。通过提供包含图表的高质量数学问题,该数据集能够全面测试模型是否真正理解并利用视觉信息进行数学推理。其经典使用场景包括对MLLMs在文本与视觉信息融合能力上的深入评估,特别是在几何、函数等数学领域的应用。
解决学术问题
MathVerse数据集解决了当前多模态大语言模型在视觉数学问题解决中表现评估不足的问题。通过提供多样化的数学问题版本,该数据集能够揭示模型是否真正依赖视觉信息进行推理,而非仅通过文本内容推断答案。这一数据集为研究者提供了更精细的评估工具,帮助理解MLLMs在多模态推理中的局限性,并推动相关技术的改进。
衍生相关工作
MathVerse数据集衍生了一系列相关研究工作,特别是在多模态大语言模型的优化与评估领域。例如,基于该数据集的研究推动了MAVIS项目的开发,该项目包括大规模数据集、视觉编码器和数学专用MLLM的构建。此外,MathVerse还为LLaVA-OneVision等模型的训练提供了重要数据支持,进一步提升了模型在视觉数学推理中的表现。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

music-genres-dataset

包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录