MME

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

下载链接

链接失效反馈

官方服务：

资源简介：

第一个针对多模态大型语言模型的综合评估基准。目前排行榜包括50多种先进模型，如Qwen-VL-Max、Gemini Pro和GPT-4V。

The first comprehensive evaluation benchmark for multimodal large language models. The current leaderboard includes over 50 advanced models, such as Qwen-VL-Max, Gemini Pro, and GPT-4V.

创建时间：

2023-05-19

原始信息汇总

数据集概述

1. 数据集名称

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

2. 数据集描述

Video-MME 是一个全面的评估基准，用于视频分析中的多模态大型语言模型（MLLMs）。该数据集适用于图像MLLMs和视频MLLMs，并包括短、中、长期视频，时长从11秒到1小时不等。

3. 数据集特点

全新收集和标注：所有数据均由人类新收集和标注，不依赖于任何现有视频数据集。
包含多种视频时长：数据集涵盖了从短于2分钟到长达30分钟至60分钟的视频。
涉及多种模型：数据集的排行榜包括了多种先进的模型，如Gemini 1.5 Pro, GPT-4o, GPT-4V, LLaVA-NeXT-Video, InternVL-Chat-V1.5, 和 Qwen-VL-Max。

4. 数据集获取方式

数据集的获取需要通过电子邮件联系，具体要求包括实名制、电子邮件后缀需匹配所属机构等。详细信息如下：

Name: (您的姓名) Affiliation: (您的大学或公司名称/网址) Job Title: (如教授、博士、研究员) Email: (您的电子邮件地址) How to use: (仅限非商业用途)

发送申请邮件至 yongdongluo@stu.xmu.edu.cn。

5. 数据集用途

该数据集主要用于学术研究，特别是在多模态大型语言模型在视频分析领域的评估和研究。

搜集汇总

数据集介绍

构建方式

MME数据集的构建基于对多模态大语言模型（MLLMs）的全面评估需求，涵盖了从短时（< 2分钟）到长时（30分钟至1小时）的视频内容。所有数据均为全新采集并由人工标注，确保了数据的高质量和多样性。通过这种方式，MME数据集为多模态模型的评估提供了丰富的资源，支持不同时间长度的视频分析任务。

特点

MME数据集的显著特点在于其全面性和多样性，不仅涵盖了多种视频时长，还通过人工标注确保了数据的准确性和可靠性。此外，该数据集专注于多模态大语言模型的评估，为研究者提供了一个标准化的基准，用于测试和比较不同模型的性能。这种多样性和标准化使得MME成为多模态领域研究的重要资源。

使用方法

MME数据集可用于评估多模态大语言模型在视频分析任务中的表现，支持短时、中时和长时视频的分析。研究者可以通过下载数据集并使用提供的评估工具，对模型进行定量和定性的测试。此外，MME还提供了详细的文档和示例代码，帮助用户快速上手并进行有效的模型评估。

背景与挑战

背景概述

MME数据集由MME、MMBench和LLaVA团队联合推出，旨在为多模态大语言模型（MLLMs）提供一个全面的评估基准。该数据集的核心研究问题聚焦于多模态模型的性能评估，涵盖了从短到长的视频分析任务。MME数据集的创建标志着多模态领域的一个重要里程碑，其通过全新收集和人工标注的数据，为研究者提供了一个高质量的基准，推动了多模态大语言模型在视频分析中的应用和发展。

当前挑战

MME数据集在构建过程中面临多重挑战。首先，数据集涵盖了从11秒到1小时的视频，涉及短、中、长三种不同时长的视频，这对数据标注的准确性和一致性提出了极高的要求。其次，多模态大语言模型在处理视频数据时，需同时兼顾视觉和语言信息的融合，这对模型的跨模态理解能力构成了挑战。此外，如何确保评估工具的公平性和全面性，以便准确衡量不同模型的性能，也是该数据集面临的重要问题。

常用场景

经典使用场景

MME数据集在多模态大语言模型（MLLMs）的评估中扮演着至关重要的角色。其经典使用场景主要集中在对多模态模型的性能进行全面评估，涵盖了从短时视频到长时视频的多种类型，确保模型在不同时间尺度上的表现都能得到精确衡量。通过MME，研究者能够系统地分析模型在视觉和语言理解上的能力，从而为模型的进一步优化提供坚实的基础。

实际应用

MME数据集在实际应用中具有广泛的潜力，尤其是在视频分析、智能监控和多媒体内容理解等领域。通过评估多模态大语言模型在不同视频长度和复杂度下的表现，MME为开发更智能的视频处理系统提供了重要的参考。例如，在智能监控系统中，MME可以帮助识别和分析长时间视频中的异常行为，从而提高系统的安全性和可靠性。

衍生相关工作

MME数据集的推出催生了一系列相关的经典工作，特别是在多模态模型的评估和优化方面。例如，基于MME的评估基准，研究者开发了多种改进的多模态模型，如Freeze-Omni和VITA，这些模型在低延迟和高智能的对话系统中表现出色。此外，MME还推动了Woodpecker等工作的出现，专注于解决多模态模型中的幻觉问题，进一步提升了模型的可靠性和实用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集