MM-Vet v2|多模态模型数据集|图像-文本序列理解数据集

arXiv2024-08-02 更新2024-08-05 收录

多模态模型

图像-文本序列理解

下载链接：

https://github.com/yuweihao/MM-Vet

下载链接

链接失效反馈

资源简介：

MM-Vet v2数据集由新加坡国立大学、微软和先进微设备公司共同创建，旨在评估大型多模态模型的综合能力。该数据集包含517个高质量的评估样本，涵盖了从日常生活到专业/行业应用的多种场景。数据集的创建过程包括由研究人员设计问题和收集参考答案，确保了数据集的高质量和广泛应用性。MM-Vet v2特别引入了“图像-文本序列理解”能力，用于评估模型处理图像和文本序列数据的能力，旨在解决多模态模型在实际应用中的复杂任务处理问题。

提供机构：

新加坡国立大学, 微软, 先进微设备

创建时间：

2024-08-02

原始信息汇总

MM-Vet 数据集概述

数据集简介

MM-Vet 数据集用于评估大型多模态模型在集成能力方面的表现，涵盖了识别、OCR、知识、语言生成、空间感知和数学等多个核心视觉语言能力。

数据集版本

MM-Vet v2: 扩展了 MM-Vet，新增了“图像-文本序列理解”能力，并扩大了评估集的规模，同时保持高质量。

数据集下载

数据集可以从以下链接下载： Download Dataset

数据集评估

评估步骤

安装依赖: 使用 pip install openai>=1 安装 openai 包，并获取 GPT-4/GPT-3.5 API 访问权限。
下载数据集: 从上述链接下载并解压数据集。
模型推理: 使用提供的推理脚本进行模型推理，并将结果保存为 JSON 格式。
评估模型: 使用提供的评估脚本对模型输出进行评估。

推理脚本示例

bash image_detail=high # 或 auto, low 参考 https://platform.openai.com/docs/guides/vision/low-or-high-fidelity-image-understanding

python inference/gpt4v.py --mmvet_path /path/to/mm-vet --image_detail ${image_detail}

bash python inference/gemini_vision.py --mmvet_path /path/to/mm-vet

评估脚本示例

bash python mm-vet_evaluator.py --mmvet_path /path/to/mm-vet --result_file results/llava_llama2_13b_chat.json

数据集样本

数据集包含多个样本，每个样本都包含一个问题和相应的答案，以及所需的视觉语言能力。以下是部分样本示例：

样本 1

Q: What occasions would someone use this meme? GT: This meme, commonly known as "Screaming Panda," is typically used to express shock, surprise, or fear. Required capabilities: Recognition, knowledge, language generation

样本 2

Q: How many tomatoes are there? GT: 5 Required capabilities: Recognition

样本 3

Q: What is located to the right of the shampoo? GT: conditioner Required capabilities: OCR, spatial awareness

样本 4

Q: Which room is bigger, the double garage or the living room? GT: double garage Required capabilities: OCR, spatial awareness, math

样本 5

Q: On the right desk, what is to the left of the laptop? GT: table lamp <OR> desk lamp Required capabilities: Recognition, spatial awareness

样本 6

Q: What are all the scene text in the image? GT: 5:30PM<AND>88%<AND>Mario Kart 8 Deluxe<AND>MARIO KART 8 DELUXE<AND>SUPER MARIO ODYSSEY<AND>THE LEGEND OF ZELDA<AND>BREATH OF WILD<AND>Options<AND>Start Required capabilities: OCR

样本 7

Q: How many gallons of supreme gasoline can I get with $50? GT: 13.6 <OR> 13.7 Required capabilities: OCR, math

样本 8

Q: In which country was this photo taken? GT: Australia Required capabilities: Recognition, knowledge

样本 9

Q: Can you explain this meme? GT: This meme is a humorous take on procrastination and the tendency to delay tasks until a specific time. Required capabilities: Recognition, OCR, knowledge, language generation

样本 10

Q: The graph below shows the long-term international migration, UK, 1999-2008. GT: The chart gives information about UK immigration, emigration and net migration between 1999 and 2008. Required capabilities: Recognition, OCR, language generation, spatial awareness

样本 11

Q: Which car is on the parking spot 33? GT: no <OR> empty Required capabilities: Recognition, OCR, spatial awareness

样本 12

Q: Is this apple organic? GT: yes Required capabilities: Recognition, OCR

样本 13

Q: Which are producers in this food web? GT: Phytoplankton <AND> Seaweed Required capabilities: OCR, knowledge, spatial awareness

样本 14

Q: Is the person bigger than the car? GT: no Required capabilities: Recognition, knowledge, spatial awareness

样本 15

Q: The table below gives information about the underground railway systems in six cities. GT: The table shows data about the underground rail networks in six major cities. Required capabilities: OCR, language generation, spatial awareness

样本 16

Q: What will the girl on the right write on the board? GT: 14 Required capabilities: Recognition, OCR, spatial awareness, math

更多样本请参考：更多样本

AI搜集汇总

数据集介绍

构建方式

MM-Vet v2数据集的构建方式主要通过引入新的‘图像-文本序列理解’能力，以评估模型处理图像和文本序列数据的能力。研究团队设计并收集了517个问题，涵盖从日常生活到专家应用的多种场景，这些问题不仅继承了MM-Vet的六种核心能力，还扩展了新的序列理解能力。对于需要长文本回答的问题，首先使用GPT-4V生成答案草稿，然后由专家进行校正和重述，以确保答案的高质量。

使用方法

使用MM-Vet v2数据集进行模型评估时，首先将问题、参考答案和模型输出填充到预定义的模板中，然后通过GPT-4进行评分。评分范围从0到1，表示模型输出的正确性。为了减少GPT-4输出的不确定性，每个样本的评分会进行五次，并取平均值。评估结果不仅包括各核心能力的得分，还涵盖了能力集成的评估，从而全面反映模型的多模态处理能力。

背景与挑战

背景概述

随着大规模多模态模型（LMMs）的快速发展，评估这些模型在复杂任务中的综合能力变得尤为重要。MM-Vet v2数据集由新加坡国立大学和微软的研究团队共同开发，旨在评估大型多模态模型在视觉语言任务中的综合能力。该数据集于2024年发布，主要研究人员包括Weihao Yu、Zhengyuan Yang等，其核心研究问题是如何有效评估模型在处理图像与文本序列数据时的理解能力。MM-Vet v2不仅继承了MM-Vet的六项核心能力评估，还新增了‘图像-文本序列理解’能力，使其成为评估LMMs的重要基准，对推动多模态模型研究具有重要影响。

当前挑战

MM-Vet v2数据集在构建过程中面临多项挑战。首先，如何设计高质量的评估样本，确保问题涵盖多种实际场景，是一个主要难题。其次，数据集需要处理图像与文本序列的复杂交互，这对模型的多模态理解能力提出了更高要求。此外，数据集的扩展也带来了样本多样性和质量控制的挑战。尽管如此，MM-Vet v2通过引入新的评估能力和扩展样本数量，为评估先进LMMs提供了更为全面的工具，但也需要在保持高质量的同时，解决样本多样性和复杂性带来的评估难题。

常用场景

经典使用场景

MM-Vet v2数据集的经典使用场景在于评估大型多模态模型的综合能力，特别是其在处理图像与文本序列数据时的理解能力。通过设计包含多种视觉与语言任务的复杂问题，MM-Vet v2能够全面测试模型在识别、知识推理、空间感知、语言生成、OCR和数学计算等多方面的表现。

解决学术问题

MM-Vet v2数据集解决了当前多模态模型评估中的一大难题，即如何有效评估模型在处理复杂视觉与语言序列数据时的能力。传统的评估方法往往局限于单一图像与文本对，无法全面反映模型在实际应用中的表现。MM-Vet v2通过引入图像-文本序列理解这一新能力，填补了这一空白，为学术界提供了一个更为全面和精确的评估工具。

实际应用

在实际应用中，MM-Vet v2数据集可用于开发和优化多模态模型，特别是在需要处理复杂视觉与语言交互的场景中，如智能助手、自动驾驶、医疗诊断等。通过使用MM-Vet v2进行模型训练和评估，开发者能够更好地理解和提升模型在真实世界中的表现，从而推动相关技术的实际应用和商业化进程。

数据集最近研究

相关研究论文

1
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities新加坡国立大学, 微软, 先进微设备 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

红外谱图数据库

收集整理红外谱图实验手册等数据，建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中，原始红外谱图都进行了数字化处理，从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图，也可以提交谱图/谱峰数据，以检索与之相似的谱图数据，以协助进行谱图鉴定。

国家基础学科公共科学数据中心收录

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集，旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型（如RGB、深度、骨骼）和来自不同国家的数据，用于支持手语识别和翻译技术的研究。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录