five

Video-MME - 视频分析多模态大模型评估基准数据集|视频分析数据集|多模态评估数据集

收藏
github2024-06-10 收录
视频分析
多模态评估
下载链接:
https://github.com/BradyFU/Video-MME
下载链接
链接失效反馈
资源简介:
Video-MME是北京大学、香港大学等6所高校联手,发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频,总时长达256小时,研究人员通过反复观看视频内容,手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别,视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准,也为研究外部信息对视频理解性能的影响提供了宝贵的资源。

Video-MME is the first multimodal large model evaluation benchmark specifically designed for video analysis, jointly released by six universities including Peking University and the University of Hong Kong. The dataset comprises 900 videos with a total duration of 256 hours. Researchers manually selected and annotated 2,700 high-quality multiple-choice questions by repeatedly viewing the video content. The dataset spans six major visual domains, including knowledge, film and television, sports competitions, artistic performances, life recordings, and multilingual content, further subdivided into 30 categories such as astronomy, technology, and documentaries, with video lengths ranging from 11 seconds to 1 hour. Additionally, Video-MME integrates subtitles and audio tracks, enhancing the multimodal input analysis for video comprehension. Notably, all data in Video-MME, including Q&A, videos, subtitles, and audio, were manually collected and curated, ensuring the high quality of this benchmark. The creation of this dataset not only provides researchers with a challenging test benchmark but also offers a valuable resource for studying the impact of external information on video comprehension performance.
提供机构:
USTC, XMU, HKU, PKU, CUHK, ECNU
创建时间:
2024-06-07
原始信息汇总

数据集概述

名称: Video-MME

描述: Video-MME 是首个全面评估多模态大型语言模型(MLLMs)在视频分析中应用的基准数据集。该数据集旨在全面评估 MLLMs 处理视频数据的能力,涵盖广泛的视觉领域、时间持续性和数据模态。

数据集构成:

  • 视频数量: 900 个
  • 总时长: 254 小时
  • 问题-答案对: 2,700 个人工标注的问答对

数据集特点:

  • 时间维度持续性: 包括短(<2分钟)、中(4分钟~15分钟)和长(30分钟~60分钟)视频,范围从11秒到1小时。
  • 视频类型多样性: 涵盖6个主要视觉领域,包括知识、电影与电视、体育竞赛、生活记录和多语言,共有30个子领域。
  • 数据模态广度: 除视频帧外,还包括字幕和音频,以评估 MLLMs 的全方位能力。
  • 标注质量: 所有数据均为新收集并由人工标注,确保多样性和质量。

使用许可:

  • 仅限学术研究使用,禁止任何形式的商业使用。
  • 所有视频的版权属于视频所有者。
  • 未经事先批准,不得以任何方式分发、发布、复制、传播或修改 Video-MME 的全部或部分内容。

评估流程:

  • 提取帧和字幕: 包括900个视频和744个字幕,所有长视频均包含字幕。
  • 评估方法: 使用特定的 JSON 格式记录模型响应,并通过自定义脚本计算准确率。

联系方式: 如有任何问题,请发送邮件至 videomme2024@gmail.com。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在探索人工通用智能的征途中,多模态大语言模型(MLLMs)已成为近期进展的焦点,但其处理序列视觉数据的能力仍未得到充分探索。为此,我们构建了Video-MME,这是首个全面的多模态大语言模型在视频分析中的评估基准。该数据集包含900个视频,总计254小时,并附有2,700个人工标注的问题-答案对。其构建过程涵盖了从视频采集、多模态数据整合到人工标注的完整流程,确保了数据的高质量和多样性。
特点
Video-MME数据集的显著特点在于其时间维度上的持续性、视频类型的多样性、数据模态的广度以及标注质量的高标准。具体而言,该数据集包含了从11秒到1小时的视频,涵盖了短、中、长三种持续时间,确保了上下文动态的稳健性。此外,视频类型跨越了6个主要视觉领域和30个子领域,确保了广泛的应用场景。数据模态不仅包括视频帧,还整合了字幕和音频,全面评估MLLMs的能力。所有数据均为全新采集和人工标注,确保了多样性和高质量。
使用方法
使用Video-MME数据集进行评估时,首先需提取视频帧和对应的字幕。对于每个视频,提取的帧数和字幕应与视频的时间点相对应。随后,使用预定义的提示格式进行模型评估,提示中包含视频字幕和问题,模型需根据视频内容选择最佳答案。评估结果以JSON格式输出,并通过提供的评估脚本计算准确率。若需将模型结果添加到排行榜,需将结果发送至指定邮箱,确保格式与模板一致。
背景与挑战
背景概述
在追求人工通用智能的征途中,多模态大语言模型(MLLMs)已成为近期技术进步的焦点。然而,其在处理序列视觉数据方面的潜力仍未得到充分探索。为此,我们引入了Video-MME,这是首个全面的多模态大语言模型在视频分析中的评估基准。该数据集由900个视频组成,总时长254小时,并包含2,700个人工标注的问答对。Video-MME通过四个关键特征区别于现有基准:时间维度上的时长多样性、视频类型的广泛多样性、数据模态的广度以及标注质量的高标准。这一数据集的创建旨在全面评估MLLMs在处理视频数据方面的能力,涵盖了从短到长的视频时长、多种视觉领域以及多模态输入,如字幕和音频。
当前挑战
Video-MME数据集在构建过程中面临多项挑战。首先,视频数据的多样性和复杂性要求在时间维度上涵盖短、中、长三种时长的视频,这增加了数据采集和标注的难度。其次,视频类型的多样性涉及六个主要视觉领域和30个子领域,确保了广泛的应用场景,但也带来了数据集管理的复杂性。此外,整合多模态输入如字幕和音频,以评估MLLMs的全方位能力,增加了数据处理的复杂度和标注的一致性要求。最后,高质量的人工标注确保了数据集的多样性和质量,但这也意味着更高的成本和时间投入。这些挑战共同构成了Video-MME在视频分析领域中的独特性和复杂性。
常用场景
经典使用场景
在视频分析领域,Video-MME数据集的经典使用场景主要集中在多模态大语言模型(MLLMs)的评估与优化。该数据集通过提供900个视频和2,700个人工标注的问题-答案对,支持对MLLMs在处理视频数据时的多维度评估,包括视频时长、视觉领域多样性、数据模态广度及标注质量。
衍生相关工作
基于Video-MME数据集,研究者们已经开展了一系列相关工作,包括但不限于多模态大语言模型的性能评估、视频内容理解的深度学习模型优化以及跨模态信息融合的研究。这些工作不仅丰富了视频分析领域的理论基础,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在人工智能领域,多模态大语言模型(MLLMs)的快速发展引发了广泛关注,尤其是在视频分析领域。Video-MME数据集作为首个全面评估多模态大语言模型在视频分析中应用的基准,其研究方向主要集中在提升模型对视频数据的处理能力。具体而言,研究者们致力于通过优化模型架构和训练方法,增强模型对视频中时间维度、视觉领域多样性、多模态数据融合以及高质量标注数据的处理能力。这些研究不仅推动了视频分析技术的进步,也为实现更智能的视频内容理解和生成奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

RETQA

RETQA是由北京师范大学创建的第一个大规模开放领域中文表格问答数据集,专门针对房地产领域。该数据集包含4932个表格和20762个问答对,涵盖16个子领域,涉及房产信息、房地产公司财务信息和土地拍卖信息。数据集通过从中国八个主要城市的公开数据源收集并清洗整理,每个表格都配有摘要标题以辅助检索。RETQA的创建过程包括表格收集、问答对生成、意图和槽标签注释以及查询重写和质量控制。该数据集主要用于解决房地产领域的开放域和长表格问答问题,推动表格问答技术的发展。

arXiv 收录

GenExam

GenExam是一个跨学科的文本到图像考试基准数据集,包含10个学科领域的1000个样本。每个样本都配备了考试风格的提示、真实图像和细粒度的评分点,旨在精确评估语义正确性和视觉合理性。该数据集通过将图像生成作为考试,严格评估模型的知识整合、推理和生成能力,为通用AGI的发展提供了见解。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

FACED

FACED数据集是由清华大学脑与智能实验室和智能技术与系统国家重点实验室共同创建,包含从123名参与者收集的32通道EEG信号,用于情感计算研究。数据集通过记录参与者观看28个情感诱发视频片段时的EEG信号构建,旨在通过EEG信号分析情感状态。创建过程中,数据经过标准化和统一预处理,设计了四个EEG分类任务。该数据集主要应用于情感识别和脑机接口领域,旨在解决情感计算中的分类问题,提高情感识别的准确性和效率。

arXiv 收录