MME
收藏github2024-05-19 更新2024-05-31 收录
下载链接:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
下载链接
链接失效反馈官方服务:
资源简介:
第一个针对多模态大型语言模型的综合评估基准。目前排行榜包括50多种先进模型,如Qwen-VL-Max、Gemini Pro和GPT-4V。
The first comprehensive evaluation benchmark for multimodal large language models. The current leaderboard includes over 50 advanced models, such as Qwen-VL-Max, Gemini Pro, and GPT-4V.
创建时间:
2023-05-19
原始信息汇总
数据集概述
1. 数据集名称
- Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
2. 数据集描述
- Video-MME 是一个全面的评估基准,用于视频分析中的多模态大型语言模型(MLLMs)。该数据集适用于图像MLLMs和视频MLLMs,并包括短、中、长期视频,时长从11秒到1小时不等。
3. 数据集特点
- 全新收集和标注:所有数据均由人类新收集和标注,不依赖于任何现有视频数据集。
- 包含多种视频时长:数据集涵盖了从短于2分钟到长达30分钟至60分钟的视频。
- 涉及多种模型:数据集的排行榜包括了多种先进的模型,如Gemini 1.5 Pro, GPT-4o, GPT-4V, LLaVA-NeXT-Video, InternVL-Chat-V1.5, 和 Qwen-VL-Max。
4. 数据集获取方式
-
数据集的获取需要通过电子邮件联系,具体要求包括实名制、电子邮件后缀需匹配所属机构等。详细信息如下:
Name: (您的姓名) Affiliation: (您的大学或公司名称/网址) Job Title: (如教授、博士、研究员) Email: (您的电子邮件地址) How to use: (仅限非商业用途)
发送申请邮件至 yongdongluo@stu.xmu.edu.cn。
5. 数据集用途
- 该数据集主要用于学术研究,特别是在多模态大型语言模型在视频分析领域的评估和研究。
搜集汇总
数据集介绍

构建方式
MME数据集的构建基于对多模态大语言模型(MLLMs)的全面评估需求,涵盖了从短时(< 2分钟)到长时(30分钟至1小时)的视频内容。所有数据均为全新采集并由人工标注,确保了数据的高质量和多样性。通过这种方式,MME数据集为多模态模型的评估提供了丰富的资源,支持不同时间长度的视频分析任务。
特点
MME数据集的显著特点在于其全面性和多样性,不仅涵盖了多种视频时长,还通过人工标注确保了数据的准确性和可靠性。此外,该数据集专注于多模态大语言模型的评估,为研究者提供了一个标准化的基准,用于测试和比较不同模型的性能。这种多样性和标准化使得MME成为多模态领域研究的重要资源。
使用方法
MME数据集可用于评估多模态大语言模型在视频分析任务中的表现,支持短时、中时和长时视频的分析。研究者可以通过下载数据集并使用提供的评估工具,对模型进行定量和定性的测试。此外,MME还提供了详细的文档和示例代码,帮助用户快速上手并进行有效的模型评估。
背景与挑战
背景概述
MME数据集由MME、MMBench和LLaVA团队联合推出,旨在为多模态大语言模型(MLLMs)提供一个全面的评估基准。该数据集的核心研究问题聚焦于多模态模型的性能评估,涵盖了从短到长的视频分析任务。MME数据集的创建标志着多模态领域的一个重要里程碑,其通过全新收集和人工标注的数据,为研究者提供了一个高质量的基准,推动了多模态大语言模型在视频分析中的应用和发展。
当前挑战
MME数据集在构建过程中面临多重挑战。首先,数据集涵盖了从11秒到1小时的视频,涉及短、中、长三种不同时长的视频,这对数据标注的准确性和一致性提出了极高的要求。其次,多模态大语言模型在处理视频数据时,需同时兼顾视觉和语言信息的融合,这对模型的跨模态理解能力构成了挑战。此外,如何确保评估工具的公平性和全面性,以便准确衡量不同模型的性能,也是该数据集面临的重要问题。
常用场景
经典使用场景
MME数据集在多模态大语言模型(MLLMs)的评估中扮演着至关重要的角色。其经典使用场景主要集中在对多模态模型的性能进行全面评估,涵盖了从短时视频到长时视频的多种类型,确保模型在不同时间尺度上的表现都能得到精确衡量。通过MME,研究者能够系统地分析模型在视觉和语言理解上的能力,从而为模型的进一步优化提供坚实的基础。
实际应用
MME数据集在实际应用中具有广泛的潜力,尤其是在视频分析、智能监控和多媒体内容理解等领域。通过评估多模态大语言模型在不同视频长度和复杂度下的表现,MME为开发更智能的视频处理系统提供了重要的参考。例如,在智能监控系统中,MME可以帮助识别和分析长时间视频中的异常行为,从而提高系统的安全性和可靠性。
衍生相关工作
MME数据集的推出催生了一系列相关的经典工作,特别是在多模态模型的评估和优化方面。例如,基于MME的评估基准,研究者开发了多种改进的多模态模型,如Freeze-Omni和VITA,这些模型在低延迟和高智能的对话系统中表现出色。此外,MME还推动了Woodpecker等工作的出现,专注于解决多模态模型中的幻觉问题,进一步提升了模型的可靠性和实用性。
以上内容由遇见数据集搜集并总结生成



