five

MMEVALPRO|多模态模型评估数据集|数据质量数据集

收藏
arXiv2024-06-29 更新2024-07-04 收录
多模态模型评估
数据质量
下载链接:
https://mmevalpro.github.io
下载链接
链接失效反馈
资源简介:
MMEVALPRO数据集由北京大学多媒体信息处理国家重点实验室创建,旨在通过严格的评估流程提高多模态模型评估的可信度和效率。该数据集包含2138个问题三元组,总计6414个独立问题,其中三分之二由人类专家手动标注,其余来自现有基准(MMMU、ScienceQA和MathVista)。数据集的创建过程包括精心设计的标注流程和严格的质检步骤,确保数据质量。MMEVALPRO主要应用于多模态模型的评估,旨在解决现有基准中存在的系统偏差问题,提高评估的准确性和可信度。
提供机构:
北京大学多媒体信息处理国家重点实验室
创建时间:
2024-06-29
原始信息汇总

数据集概述

数据集名称

  • MMEvalPro

描述

  • Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

关键词

  • MMEvalPro
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMEVALPRO数据集的构建方式包括三个主要步骤:数据准备、查看与分析以及问题标注。首先,标注者会彻底审查原始问题,以确保对底层概念和解决方案过程的深刻理解。接着,标注者会提取原始问题中关键的视觉信息以及隐含的逻辑框架,为创建感知和知识问题奠定基础。最后,标注者会根据收集到的见解,丰富原始问题,制定相应的感知和知识问题,从而扩大评估的范围。为确保数据集的质量,每个标注的问题三元组都会经过两次检查,由两名独立的检查者进行审查,以确保没有错误或逻辑不一致。
使用方法
MMEVALPRO数据集的使用方法主要包括以下几个步骤:首先,将数据集中的问题转换为多选题格式,并引导模型直接提供答案。其次,使用统一的输出格式,确保不同模型之间的比较是公平和一致的。最后,根据数据集的评估指标,对模型的性能进行综合评估,包括真实准确率、平均准确率、感知准确率、知识准确率、感知一致性、知识一致性和一致性差距,以全面了解模型的实际能力和问题解决的一致性。
背景与挑战
背景概述
MMEVALPRO是一个旨在评估大型多模态模型(LMMs)能力的新基准,由北京大学的多媒体信息处理国家重点实验室的研究团队创建。该数据集的创建是为了解决现有基准测试中存在的系统性偏差问题,这些问题导致大型语言模型(LLMs)在没有视觉感知能力的情况下也能取得不错的成绩,从而削弱了这些评估的可靠性。MMEVALPRO通过一个三重评估流程和更严格的指标来避免I型错误,确保了评估的可靠性和有效性。该数据集包含2138个问题三元组,总共6414个不同的问题,其中三分之二由人类专家手动标记,其余来自现有基准测试(MMMU、ScienceQA和MathVista)。MMEVALPRO的创建旨在提高多模态模型评估的可靠性和挑战性,以推动未来研究的发展。
当前挑战
MMEVALPRO面临的挑战包括:1)如何确保问题与图像细节紧密相关,使得视觉信息对于得出答案至关重要;2)如何防止训练数据的污染,确保模型是通过推理问题而不是回忆记忆中的答案来进行推理;3)如何设计问题和答案,以最大限度地减少模型做出准确猜测的可能性;4)如何通过引入感知和知识锚点问题来提高评估的准确性,从而解决现有评估中模型可能在没有真正理解内容的情况下正确回答问题的I型错误问题。
常用场景
经典使用场景
MMEVALPRO数据集旨在解决现有多模态评估基准中存在的系统偏差问题,通过引入感知和知识问题,确保模型不仅在文字上给出正确答案,而且在理解和推理上也能达到人类的水平。该数据集适用于评估和比较多模态模型(LMMs)和大型语言模型(LLMs)在多模态理解任务中的真实能力。
解决学术问题
MMEVALPRO数据集通过引入感知和知识问题,有效地解决了多模态评估基准中存在的系统偏差问题。该数据集通过更严格的评估流程和指标,提高了评估的可靠性和可信度,从而为多模态模型的研究和开发提供了更准确和有效的评估工具。
实际应用
MMEVALPRO数据集在实际应用中,可以用于评估和比较不同多模态模型和大型语言模型在多模态理解任务中的表现。此外,该数据集还可以用于研究和开发更可靠和可信的多模态评估基准,以推动多模态模型的研究和开发。
数据集最近研究
最新研究方向
MMEVALPRO数据集致力于解决现有多模态模型评估中的系统性偏差问题,特别是大型语言模型(LLMs)在缺乏视觉感知能力的情况下仍能取得令人瞩目的成绩。MMEVALPRO通过引入一个三重评估流程和一个更严格的指标体系来避免第一类错误。该数据集包括2,138个问题三元组,总计6,414个独特的问题,其中三分之二的问题由人类专家手动标记,其余来自现有基准(MMMU、ScienceQA和MathVista)。实验结果表明,MMEVALPRO更具挑战性,最佳多模态模型(LMM)在人类表现上落后了31.73%,而在先前基准中平均差距为8.03%。此外,MMEVALPRO更具可信度,最佳LLM落后于最佳LMM的差距为23.09%,而先前基准的差距仅为14.64%。这些发现强调了MMEVALPRO在推动未来研究中的潜在价值。
相关研究论文
  • 1
    MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation北京大学多媒体信息处理国家重点实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录