Video-MME - 视频分析多模态大模型评估基准数据集|视频分析数据集|多模态评估数据集

github2024-06-10 收录

视频分析

多模态评估

下载链接：

https://github.com/BradyFU/Video-MME

下载链接

链接失效反馈

资源简介：

Video-MME是北京大学、香港大学等6所高校联手，发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频，总时长达256小时，研究人员通过反复观看视频内容，手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域，包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言，并进一步细分为天文学、科技、纪录片等30个类别，视频长度从11秒到1小时不等。此外，Video-MME还整合字幕和音频轨道，增强了对视频理解的多模态输入分析。更难能可贵的是，Video-MME中所有数据，包括问答、视频、字幕和音频，都是手工收集和整理的，确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准，也为研究外部信息对视频理解性能的影响提供了宝贵的资源。

Video-MME is the first multimodal large model evaluation benchmark specifically designed for video analysis, jointly released by six universities including Peking University and the University of Hong Kong. The dataset comprises 900 videos with a total duration of 256 hours. Researchers manually selected and annotated 2,700 high-quality multiple-choice questions by repeatedly viewing the video content. The dataset spans six major visual domains, including knowledge, film and television, sports competitions, artistic performances, life recordings, and multilingual content, further subdivided into 30 categories such as astronomy, technology, and documentaries, with video lengths ranging from 11 seconds to 1 hour. Additionally, Video-MME integrates subtitles and audio tracks, enhancing the multimodal input analysis for video comprehension. Notably, all data in Video-MME, including Q&A, videos, subtitles, and audio, were manually collected and curated, ensuring the high quality of this benchmark. The creation of this dataset not only provides researchers with a challenging test benchmark but also offers a valuable resource for studying the impact of external information on video comprehension performance.

提供机构：

USTC, XMU, HKU, PKU, CUHK, ECNU

创建时间：

2024-06-07

原始信息汇总

数据集概述

名称: Video-MME

描述: Video-MME 是首个全面评估多模态大型语言模型（MLLMs）在视频分析中应用的基准数据集。该数据集旨在全面评估 MLLMs 处理视频数据的能力，涵盖广泛的视觉领域、时间持续性和数据模态。

数据集构成:

视频数量: 900 个
总时长: 254 小时
问题-答案对: 2,700 个人工标注的问答对

数据集特点:

时间维度持续性: 包括短（<2分钟）、中（4分钟~15分钟）和长（30分钟~60分钟）视频，范围从11秒到1小时。
视频类型多样性: 涵盖6个主要视觉领域，包括知识、电影与电视、体育竞赛、生活记录和多语言，共有30个子领域。
数据模态广度: 除视频帧外，还包括字幕和音频，以评估 MLLMs 的全方位能力。
标注质量: 所有数据均为新收集并由人工标注，确保多样性和质量。

使用许可:

仅限学术研究使用，禁止任何形式的商业使用。
所有视频的版权属于视频所有者。
未经事先批准，不得以任何方式分发、发布、复制、传播或修改 Video-MME 的全部或部分内容。

评估流程:

提取帧和字幕: 包括900个视频和744个字幕，所有长视频均包含字幕。
评估方法: 使用特定的 JSON 格式记录模型响应，并通过自定义脚本计算准确率。

联系方式: 如有任何问题，请发送邮件至 videomme2024@gmail.com。

AI搜集汇总

数据集介绍

构建方式

在探索人工通用智能的征途中，多模态大语言模型（MLLMs）已成为近期进展的焦点，但其处理序列视觉数据的能力仍未得到充分探索。为此，我们构建了Video-MME，这是首个全面的多模态大语言模型在视频分析中的评估基准。该数据集包含900个视频，总计254小时，并附有2,700个人工标注的问题-答案对。其构建过程涵盖了从视频采集、多模态数据整合到人工标注的完整流程，确保了数据的高质量和多样性。

特点

Video-MME数据集的显著特点在于其时间维度上的持续性、视频类型的多样性、数据模态的广度以及标注质量的高标准。具体而言，该数据集包含了从11秒到1小时的视频，涵盖了短、中、长三种持续时间，确保了上下文动态的稳健性。此外，视频类型跨越了6个主要视觉领域和30个子领域，确保了广泛的应用场景。数据模态不仅包括视频帧，还整合了字幕和音频，全面评估MLLMs的能力。所有数据均为全新采集和人工标注，确保了多样性和高质量。

使用方法

使用Video-MME数据集进行评估时，首先需提取视频帧和对应的字幕。对于每个视频，提取的帧数和字幕应与视频的时间点相对应。随后，使用预定义的提示格式进行模型评估，提示中包含视频字幕和问题，模型需根据视频内容选择最佳答案。评估结果以JSON格式输出，并通过提供的评估脚本计算准确率。若需将模型结果添加到排行榜，需将结果发送至指定邮箱，确保格式与模板一致。

背景与挑战

背景概述

在追求人工通用智能的征途中，多模态大语言模型（MLLMs）已成为近期技术进步的焦点。然而，其在处理序列视觉数据方面的潜力仍未得到充分探索。为此，我们引入了Video-MME，这是首个全面的多模态大语言模型在视频分析中的评估基准。该数据集由900个视频组成，总时长254小时，并包含2,700个人工标注的问答对。Video-MME通过四个关键特征区别于现有基准：时间维度上的时长多样性、视频类型的广泛多样性、数据模态的广度以及标注质量的高标准。这一数据集的创建旨在全面评估MLLMs在处理视频数据方面的能力，涵盖了从短到长的视频时长、多种视觉领域以及多模态输入，如字幕和音频。

当前挑战

Video-MME数据集在构建过程中面临多项挑战。首先，视频数据的多样性和复杂性要求在时间维度上涵盖短、中、长三种时长的视频，这增加了数据采集和标注的难度。其次，视频类型的多样性涉及六个主要视觉领域和30个子领域，确保了广泛的应用场景，但也带来了数据集管理的复杂性。此外，整合多模态输入如字幕和音频，以评估MLLMs的全方位能力，增加了数据处理的复杂度和标注的一致性要求。最后，高质量的人工标注确保了数据集的多样性和质量，但这也意味着更高的成本和时间投入。这些挑战共同构成了Video-MME在视频分析领域中的独特性和复杂性。

常用场景

经典使用场景

在视频分析领域，Video-MME数据集的经典使用场景主要集中在多模态大语言模型（MLLMs）的评估与优化。该数据集通过提供900个视频和2,700个人工标注的问题-答案对，支持对MLLMs在处理视频数据时的多维度评估，包括视频时长、视觉领域多样性、数据模态广度及标注质量。

衍生相关工作

基于Video-MME数据集，研究者们已经开展了一系列相关工作，包括但不限于多模态大语言模型的性能评估、视频内容理解的深度学习模型优化以及跨模态信息融合的研究。这些工作不仅丰富了视频分析领域的理论基础，也为实际应用提供了技术支持。

数据集最近研究

最新研究方向

在人工智能领域，多模态大语言模型（MLLMs）的快速发展引发了广泛关注，尤其是在视频分析领域。Video-MME数据集作为首个全面评估多模态大语言模型在视频分析中应用的基准，其研究方向主要集中在提升模型对视频数据的处理能力。具体而言，研究者们致力于通过优化模型架构和训练方法，增强模型对视频中时间维度、视觉领域多样性、多模态数据融合以及高质量标注数据的处理能力。这些研究不仅推动了视频分析技术的进步，也为实现更智能的视频内容理解和生成奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。域名使用 Alexa 流量排名进行排名是使用浏览行为的组合来确定的网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说，唯一身份访问者是在给定日期访问网站的唯一用户数，和 pageviews 是用户 URL 请求的总数网站。但是，对同一网站的多个请求在同一天被计为一次综合浏览量。网站独立访问者和综合浏览量的最高组合排名最高

OpenDataLab 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录